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1 Einleitung 

Das Sprechen ist ein vielschichtiger Vorgang. Diese Arbeit betrachtet 
hierin die Akustik der Sprachentstehung. Physikahsch kann man Sprache 
als die Schallabstrahlung während des Sprechens, Phonation als die Schall- 
erzeugung, und Artikulation als die zeitliche Variation der sprachformenden 
Sprechtraktgeometrie sehen. Diese Sicht führt zu einer über zweihundert 
Jahre alten Zielsetzung der Sprachforschung |Krl781j : 

Hae undae sonorae ex larynge in tuham adfixam incidentes inde 
vario modo et suh variis directionihus reflectuntur, et instar vocis 
hominum per tuham stentoream propagantur. 

... Diese Schallwellen aus der Larynx [sollenQl in dem davorliegenden Rohr in 
verschiedener Art und unter verschiedenen Richtungen reflektiert werden, so 
wie sie bei der menschlichen Stimme durch den Sprechtrakt geleitet werden. 

Die Schwierigkeiten, dieses Vorgehen umzusetzen und durch Modelle die 
Sprechtraktakustik nachzuvollziehen, sind in wesentlichen Bereichen die glei- 
chen geblieben. Die Artikulation ist wie die Sprache variantenreich und kann 
sehr dynamisch sein. Der Ausgangspunkt der Betrachtung, die Kenntnis der 
Sprechtraktgeometrie, ist unter anderem deshalb nicht unmittelbar zu er- 
langen. Trotz vielfältiger Fortschritte in der Untersuchungsmethodik ist es 
noch immer nicht möglich, die Geometrie in drei Raumdimensionen und 
deren zeitlichen Verlauf vollständig zu erfassen. 

Erst durch eine Untergliederung der Sprache in charakteristische Ef- 
fekte ergeben sich Lautgruppen, für die es gelingt, angepasste Verfahren 
zur treffenden Bestimmung der Sprechtraktgeometrie zu finden. Zwei Bei- 
spiele verdeutlichen dies: Für Vokale und vokalähnliche Laute findet sich 
eine gute Ubereinstimmung der Sprechtraktquerschnittsflächeninhalte und 
des Sprachsignals, indem man die Ausbreitung ebener Schallwellen längs 
des Sprechtraktes betrachtet; es gelingt zudem, aus einem Sprachsignal auf 
die Artikulation und deren zeitlichen Verlauf zurückzuschließen |Sc09] . An- 
dererseits schließt das Modell ebener Schallwellen seiner Definition nach die 
Betrachtung von Quermoden aus, beispielsweise bei Nasallauten in den Na- 
sengängen. Auch Dämpfungen der Schallwellen augrund der lateralen Quer- 
schnittskontur ergeben sich nicht aus diesem Modell. In die entgegengesetz- 
te Richtung zielen Untersuchungen von Raummoden im Schallfeld mittels 
Finite-Elemente- Approximationen der Sprechtraktgeometrie, die sich häufig 

1. [Le99) hebt beispielweise folgende Schichten hervor: 

- conceptual preparation, 

- lexical selection, 

- phonological encoding, 

- phonetic encoding, 

- articulation 

2. Der Autor räumt an anderer Stelle der Studie ein, dass ihm das Vorhaben noch nicht 
ganz gelungen sei. 
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auf Tomographien von Kernspinresonanzen stützen. Diese Tomographien 
sind wenig zum Erfassen von dynamischen Vorgängen geeignet, da selbst 
nur bereichsweise quantitative Messungen stundenlange Messzeiten erfor- 
dern. Zudem ist der Aufwand für die Umsetzung der tomographischen Daten 
in eine Diskretisierung durch Finite-Elemente erheblich: Er wird in |Mo02] 
als major obstacle bezeichnet. 

Diese Arbeit liefert Beiträge zur Modellierung des Artikulationsprozes- 
ses, die die in den Beispielen aufgezeigten Unzulänglichkeiten an wichtigen 
Stellen überwinden. Zunächst wird ein Uber blick über verschiedene Dis- 
kretisierungsmöglichkeiten zur akustischen Untersuchung dreidimensionaler 
Strukturen gegeben. Ein Verfahren, Finite Differenzen, wird anschließend 
genauer betrachtet: Es zeigt sich, dass es die Anforderungen zur Analyse 
der Artikulation in fast idealer Weise erfüllt. Für eine möglichst geeignete 
Datenbasis werden drei verschiedene Tomographie-Methoden, namentlich 
Kryosektion, Computer- und Kernspinresonanz- Tomographie, für den Na- 
salbereich miteinander verglichen - wobei sich erhebliche Unterschiede in 
der Qualität der Datensätze zeigen. Gemeinsam ist den Datensätzen eine 
Untergliederung in sogenannte Voxel, quaderförmige Raumbereiche, an die 
die Finiten Differenzen mittels dem hier entwickelten und als partielle Volu- 
men bezeichneten Verfahren angepasst werden. Mit diesem Vorgehen gelingt 
die direkte Übernahme der tomographischen Daten ohne Informationsver- 
lust. 

Zur Bestimmung der akustischen Eigenschaften erfolgt die Integration 
der Wellengleichung im Zeitbereich. Hierbei zeigt sich, dass Erweiterungen 
wie Wandreibung und Wärmeleitung als lineare Dämpfungsmechanismen 
der Schallausbreitung im Sprechtrakt in diese Modelle einfach zu integrie- 
ren sind und der Nasaltrakt mit hoher Detailtreue modelliert wird. Eine 
effiziente Implementierung des Finite-Differenzen- Algorithmus hält die Re- 
chenzeit hierfür in Grenzen. 

Vokaltraktkonfigurationen in dynamischen Artikulationsphasen werden 
mit Speak ermittelt. Speak ist ein im Rahmen dieser Arbeit entwickeltes 
Programm, das über umfangreiche Analyse-, Synthese- und Visualisierungs- 
möglichkeiten für typische Prozesse der Sprechakustik verfügt. Der damit 
bestimmte Verlauf des Querschnittsfiächeninhalts wird mit einer Kontur 
aus Magnetresonanz- Tomographien versehen, um zu einem wirklichkeitsna- 
hen dreidimensionalen Modell zu gelangen. Für einen Laterallaut wird das 
Verfahren beispielhaft angewendet. Anhand dieser Ergebnisse werden für 
weitere Lautgruppen die Vorteile der Herangehensweise aufgezeigt und dis- 
kutiert. 

Die in dieser Arbeit verwendeten Begriffe orientieren sich an der Empfehlung 
|ITG94j . 
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Teil I 

Grundlagen 

In den folgenden Abschnitten wird zunächst die gebräuchhche phoneti- 
sche Segmentierung und eine darauf basierende Klassifizierung von gespro- 
chener Sprache vorgestellt, anhand derer sowohl die Akustik der Lautentste- 
hung als auch die Anatomie des Sprechtraktes erörtert wird. Darauf folgend 
werden Modelle des Sprechtraktes betrachtet, mit denen zunehmend genauer 
die Akustik und die relevante Anatomie nachgebildet werden. Anhand ei- 
niger Beispiele werden die Erkenntnisse zur Lautentstehung aufgezeigt, die 
man aus diesen Modellen gewinnt. Das Rohrmodell, welches vereinfachend 
die Ausbreitung ebener Schallwellen entlang des Vokaltraktes beschreibt und 
wesentliche Lauteigenschaften erklärt, wird dann eingehender betrachtet. 
Abschließend werden ein Uberblick über die Morphologie des Nasaltraktes 
gegeben und verschiedene Methoden diskutiert, die Schallausbreitung hier- 
für dreidimensional zu berechnen. 

2 Laute 

Für eine akustisch motivierte Modellierung des Sprechens ist es nahelie- 
gend und hilfreich, zunächst die während des Sprechens ablaufenden artiku- 
latorischen Vorgänge und die sich daraus ergebenden akustischen Effekte zu 
betrachten und qualitativ zu verstehen. Dazu wird eine Unterteilung der kon- 
tinuierlichen Sprachäußerung in Elemente vorgenommen, den Lauten oder 
Phonen. Die Elemente werden dabei in Lautklassen zusammengefasst, die 
in den akustischen Effekten differieren, hervorgerufen durch unterschiedliche 
schallanregende Mechanismen und artikulierende Organe. Ein Querschnitt 
durch den Sprechtrakt in Bild 12.11 zeigt die Lage der beteiligten Organe. 

Phonetischen Konventionen folgend kann man die Laute in Vokale und 
Konsonanten unterteilen, wie in dem nachfolgenden Diagramm, Bild 12. 2| 
und Tabelle 12.21 in der überwiegend verwendeten Notation des International 
Phonetic Alphabet nach |IPA99j dargestellt. Beispiele für die Aussprache der 
Phone werden in Tabelle [2. II für die deutsche Sprache gezeigt. In Tabelle [2.21 
erkennt man, wie sich die Konsonanten hinsichtlich Artikulationsort und 
Artikulationsart unterscheiden. 

Die Unterteilung in Vokale und Konsonanten ist beispielsweise von pho- 
notaktischer und perzeptiver Bedeutung: Vokale tendieren zum Silbenzen- 
trum und weisen eine hohe Sonorität auf, wie |Sil88H IZe95| verdeutlichen. 
Im Hinblick auf ein akustisches Modell des Sprechtrakts ist jedoch eine Grup- 
pierung naheliegender, die sich zunächst an den physikalischen Prozessen der 
Schallentstehung und im weiteren an der Schallausbreitung orientiert. Die 
Artikulationsstelle ist dabei nachrangig: sie verschiebt letztlich nur bestimm- 
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te Effekte innerlialb einer Gruppe, oline sie grundlegend zu ändern. Anliand 
dieser Gruppierung wird im Folgenden ein Uberblick über die verschiedenen 
Laute gegeben. 

2.1 Vokale, Diphthonge und Approximanten 

In dieser Gruppe erfolgt die Anregung von Schallwellen durch die Schwin- 
gung der Stimmbänder, die nahezu periodisch durch einen in der Lunge er- 
zeugten Luftdruck geöffnet und durch den dann entstehenden Luftstrom auf- 
grund des Bernoulli-Effekts wieder geschlossen werden. Die Schallabstrah- 
lung erfolgt durch den geöffneten Mund. 

Artikulatorisch unterscheiden sich die Vokale durch Mundöffnung und 
-rundung sowie durch die Stellung der Zunge. Die Zungenstellung beein- 
flusst den Querschnittsverlauf des Rachenraumes, damit die Reflexion der 
Schallwellen in diesem Bereich und so letztlich den Klang. Die Artikulato- 
ren sind im zeitlichen Zentrum der Äußerung eines Vokals nahezu unbewegt. 
Die zweidimensionale Darstellung in Bild 12.21 verdeutlicht den Einfluss der 
Zungenstellung auf die Artikulation von Vokalen. Die Lautdauer von Voka- 



4. Die Entwicklung des Vokaltrapezes zeigt [Ru28) . 
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Zungenhöhe 



Zungenrückenposition 



vorne 



mitte 



hinten 



hoch 



1 \y 




u 



mittelhoch 



mitteltief 



tief 



Bild 2.2: Vokale. Die Achsen stellen die übliche artikulatorische Vokalmetrik dar: 
die horizontale Achse repräsentiert die Zungenrückenposition und die vertikale Ach- 
se die Zungenhöhe bzw. Kieferstellung. Bei paarweise dargestellten Vokalen sind die 
Lippen bei der Artikulation des linken gespreizt und des rechten gerundet. Trotz 
gleicher Notation variiert je nach Sprache die Lage der Vokale in dem gezeichneten 
Vokaltrapez. Die Anzahl der Vokale in einer Sprache kann von 2-3, je nach Klas- 
sifizierung, bis über 20 reichen, vgl. [GoA06[ ITr95| . Entsprechend genau muss der 
Klang der Vokale unterschieden werden. 

Diese Darstellung gibt auch Hinweise auf den Klang des Vokals selbst. Der Zusam- 
menhang ergibt sich aus prominenten Frequenzbereichen, die den Klang des Vokals 
prägen und als Formanten bezeichnet und fortlaufend nummeriert werden. Eine 
hohe Zungenhöhe bewirkt einen tiefen Formanten Fl und eine tiefe Zungenhöhe 
einen hohen Formanten Fl. Die horizontale Achse repräsentiert den Formanten F2. 
Hier bewirkt eine vordere Zungenrückenposition einen höheren Formanten F2 und 
eine hintere Zungenrückenposition einen tieferen Formanten F2. 

len kann kontextabhängig variieren, aber auch bedeutungstragend sein. Ein 
Beispiel hierfür ist nach [KuSW06] „Lamm" [lam] und „lahm" [la:m], wenn- 
gleich in |KrKE64] eine Verschiebung bei gelängter Artikulation zu [la:m] 
erkannt wird. 

Diphthonge sind Vokalübergänge. Wie bei den Vokalen ist das artikula- 
torische Organ die Zunge, die durch eine gleitende Bewegung den Laut bil- 
det. In der deutschen Sprache gibt es eine Reihe von Diphthonge, die auf [b] 
enden, beispielsweise in „Ohr" [oe] oder „hart" [häSt], und drei periphere Di- 
phthonge, [ai], [au] und [5y], beispielsweise nach [Ko99j in „Eis", „Haus" und 
„Kreuz". Wie aus den Beispielen zu erkennen ist, bestehen Diphthonge aus 
zwei Vokalen, die aufgrund ihrer starken Koartikulation zusammengezogen 
werden: Der erste Vokal liefert die Anfangsstellung und der zweite Vokal die 
Endstellung der Zunge; der Laut wird durch einen kontinuierlichen Uber- 
gang artikuliert. 

Approximanten, in der deutschen Sprache nach bspw. |KrKE64l IKo99] 
nur durch den Laut [j] vertreten, unterschieden sich von Vokalen durch eine 
starke Verengung des Vokaltrakts durch die Zunge. 
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ich 
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Tabelle 2.1: Beispiele der Realisierung von Lauten in der deutschen Sprache, vgl. 
[KuSW06] . Die ersten beiden Spalten zeigen Vokale und Approximanten, die dritte 
Spalte Nasale und Plosive und die letzte Spalte zeigt Frikative. Nicht in der Ta- 
belle enthalten ist der glottale Plosiv [?] wie in „Vernein" und das /r/, welches in 
verschiedenen Varianten ausgesprochen werden kann. 

* Hier differieren ^KuSWQ6' und Ko99j zumindest in der Notation, letzterer ver- 
wendet [%]. 

2.2 Nasalvokale, Nasale und Laterallaute 

Auch bei dieser Gruppe von Lauten erfolgt die Schallerzeugung durch 
die Glottisschwingung. Bei allen drei Lautklassen spaltet sich die Schall- 
ausbreitung jedoch im Vokaltrakt auf, was zu Interferenzen führt. Diese Be- 
sonderheiten und die daraus resultierenden charakteristischen Eigenschaften 
werden an verschiedenen Stellen dieser Arbeit erörtert. 

Wie der Name schon andeutet, ist bei Nasalvokalen die Nase involviert: 
Durch Absenken des Velums wird für den Schall eine Passage zu den Na- 
sengängen hin geöffnet, so dass der Schall über den Mund und über die 
Nase abgestrahlt wird. Sie kommen überwiegend in Wörtern vor, die dem 
Französischen entlehnt sind. 

Bei Nasalen ist im Unterschied der Mundraum an einer Stelle geschlos- 
sen; der Schall wird komplett über die Nase abgestrahlt. In der deutschen 
Sprache existieren drei Nasale, [m], [n] und [q]. Diese unterscheiden sich 
durch die Verschlussstelle des Mundraumes, so dass sich jeweils andere Hohl- 
räume ergeben. Deren Resonanzen beeinflussen das Spektrum des nasal ab- 
gestrahlten Schalls. 

Die Lautklasse der Lateral-Approximanten umfasst in der deutschen 
Sprache lediglich den Laut [1]. Bei seiner Artikulation berührt die Zungen- 
spitze die Alveolen; seitlich an ihr führen zwei Passagen vorbei, die unterhalb 
und oberhalb der Zunge wieder zusammenlaufen. 



2. Laute 



7 





Bilabial 


Labio 
dental 


Dental 
Alveolar 
Postalveolar 


Retro- 
flex 


Palatal 


Velar 


Uvular 


Glottal 


Plosiv 


pb 




t d 


t4 


c J 


k g 


q G 


? 


Nasal 


m 


ir\ 


n 








N 




Vibrant 


B 




r 








R 




Tap/Flap 






r 


i: 
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1 II ! 
cf 




+ 
f 


ff 







Tabelle 2.2: Konsonanten. Die Tabelle gibt eine Übersicht nach Lauterzeugungs- 
art, vertikal, und Lauterzeugungsstelle, horizontal. Im oberen Teil der Tabelle sind 
die aus dem Luftstrom der Lunge erzeugten Laute, Pulmonale, aufgeführt. Bei glei- 
cher Erzeugungsart und -stelle unterscheiden sie sich als stimmhafte (rechts) und 
stimmlose (links) Konsonanten. Ist nur eine Realisierung möglich, so ist diese mit 
Ausnahme des glottalen Plosivs ? stimmhaft. Nicht realisierbare Kombinationen 
aus Anregungsstelle und -art sind durch einen Querstrich gekennzeichnet. 

2.3 Plosive, Vibranten, Taps und Flaps 

Diese Laute zeichnen sich durch eine schnelle Zungenbewegung aus, die 
einen Verschluss des Vokaltrakts bewirkt und diesen unmittelbar darauf 
wieder freigibt. Dadurch hebt sich diese Lautgruppe von den anderen durch 
eine charakteristische, stark ausgeprägte Modulation der Schallamplitude 
ab. Diese ist gut im zeitlichen Verlauf einer Schallaufzeichnung beobachtbar. 

Bei einem Plosiv öffnet sich eine verschlossene Stelle im Stimmtrakt 
durch ein Zusammenspiel von nachlassender Andruckkraft und des durch 
die Lunge erzeugten Luftdrucks. Durch die so hervorgerufene, schnelle Ver- 
schlusslösung erzeugt die vorher angestaute Luft dabei einen explosionsar- 
tigen Knall. Plosive können stimmlos oder stimmhaft artikuliert werden, 
bei letzteren setzt kurz vor oder unmittelbar nach der Verschlusslösung die 
Glottisschwingung ein.[^ 

Vibranten sind gleichsam periodisch wiederholte Plosive. Dabei wird die 
Zunge an der Artikulationsstelle angedrückt und mehrfach durch die sich 
dabei wieder aufstauende Luft gelöst. Im deutschen Sprachraum wird nach 
|KrKE64] das /r/ auf unterschiedliche Weise realisiert, neben dem stan- 

5. Hier differieren die Darstellungen aus [IPA99| und l3.1l S. I16I In [LiA64] wird gezeigt, 
dass der Zeitpunkt des Stimmeinsatzes Sprecher- und sprachabhängig ist; dies wird auch 
durch neuere Studien gestützt, vgl. [Ba098| . 
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dardsprachlichen Frikativ (Engelaut) als alveolarer oder uvularer Vibrant. 
Die beiden Vibranten werden umgangssprachlich auch als „gerolltes r" be- 
zeichnet. 

Taps und Flaps werden durch eine einmalige Zungenbewegung gebildet 
und ähneln insofern den Plosiven. Im Unterschied zu diesen wird jedoch 
auch die Freigabe des Verschlusses im Wesentlichen durch Muskelkraft be- 
wirkt und der Verschluss muss nicht vollständig sein. Auch perzeptiv tritt 
die durch den Verschluss bewirkte kurzzeitige Unterbrechung oder Dämp- 
fung des Schalls in den Vordergrund, vgl. |Ze07j . Beispiele finden sich in eu- 
ropäischen Sprachen mit dem spanischen „pero" und dem dänischen „rat", 
die mit dem Laut [r] gebildet werden, wie in [IPA99j ausgeführt wird. 

2.4 Implosive und Klicklaute 

Auch wenn beide Lautklassen in dieser Arbeit keine weitere Bedeutung 
haben und in europäischen Sprachen nach |Ma08a] nicht als Phone vorkom- 
men, seien sie übersichtshalber kurz erwähnt. Beide Laute werden nicht von 
der Lunge aspiriert, ähneln aber in den übrigen diskutierten Eigenschaften 
den im vorangegangenen Abschnitt beschriebenen Plosiven. 

Die Erzeugung der Implosive erfolgt über einen der Erzeugung der Plosi- 
ve entgegengesetzten Prozess. Nach der Verschlussbildung wird der Kehlkopf 
abgesenkt und dadurch ein Unter druck erzeugt. 

Bei Klicklauten, ihre Artikulation beschreibend auch als Schnalzlaute be- 
zeichnet, wird der Schall durch die Zunge erzeugt. Die Zunge bildet an der 
Artikulationsstelle durch eine Lösebewegung einen expandierenden Hohl- 
raum, in dem ein Unterdruck entsteht, welcher beim Offnen das typische 
Geräusch verursacht. In der deutschen Sprache werden Klicklaute lediglich 
zum Ausdruck von Sprachgestiken genutzt, wie beispielsweise dem erstaun- 
ten missbilligenden „tz tz tz", aus dem Laut [|] gebildet. Als Phon kommen 
sie in afrikanischen Sprachen vor, wie |Tr951 [Tr03| ausführen, in einigen zur 
Unterscheidung von über vierzig Phonemen. 

2.5 Frikative 

Die Lautklasse der Frikative zeichnet sich durch eine Verengung im Vo- 
kaltrakt aus, die dort zu einer schnelleren Luftströmung und in Folge zu 
einem Wechsel von einem laminaren in einen turbulenten Zustand führt. 
Durch die dabei aperiodisch entstehenden Wirbel wird eine rauschartige 
Schallanregung erzeugt. Je nach Ort der Verengung werden unterschiedliche 
Frikative artikuliert. Die in der deutschen Sprache vorkommenden Frikative 
sind in der Tabelle [2.11 gezeigt . Von diesen weisen die stimmhaften Frikative 
[v] , [z] und [3] eine zusätzliche periodische Phonation auf, die perzeptiv dem 
Rauschen überlagert ist. 
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2.6 Akustische Eigenschaften 

Durch die Artikulation ändern sich die akustischen Eigenschaften der 
Laute. Um diesen Effekt zu ihustrieren, wird eine Auswahl von sechs stimm- 
haften Lauten betrachtet, die in den Bildern 12.31 und 12.41 gezeigt sind. Die 
stimmhafte Phonation entsteht durch die nahezu periodische Schwingung 
der Stimmbänder, die die Grundfrequenz bildet und aufgrund der abrupten 
Wechsel von geöffneter zu geschlossener Phase sehr obertonreich ist. Diese 
Periodizität lässt sich gut in dem Zeitverlauf der mittels Mikrofon erfassten 
Schallsignale der verschiedenen Laute erkennen, sie liegt in den hier gezeig- 
ten Beispielen zwischen 8 und 12 Millisekunden, was einer Grundfrequenz 
zwischen 83 und 125 Hertz entspricht. Ebenfalls gut zu erkennen sind die je 
nach Laut unterschiedlichen Signalverläufe innerhalb einer Periode. 

In dem jeweils rechten Diagramm ist der Betrag der diskreten Fourier- 
transformation einer Periode gezeigt. In diesen Darstellungen im Frequenz- 
bereich ist eine Reihe von Charakteristika sichtbar. Allen Bildern gemeinsam 
sind die der Periodizität entsprechenden Kammstrukturen und der Abfall 
der Betragsgänge zu höheren Frequenzen hin, welcher aus Eigenschaften der 
Phonation und aus der Schallabstrahlunglfl des Vokaltrakts resultiert. Die 
Betragsgänge der Spektren unterscheiden sich neben einem lautabhängig un- 
terschiedlich stark ausprägten Abfall zu höheren Frequenzen in lauttypischen 
lokalen Maxima, den Formanten. Bei den Nasalen ist ein gleichmäßigerer 
Verlauf zu erkennen, der aus einer stärkeren Dämpfung der Resonanzen her- 
rührt, wie in dieser Arbeit gezeigt wird. 

6. in Abschnitt 14.71 wird darauf näher eingegangen 

7. Die Formanten weisen gute Ubereinstimmung mit Werten aus ;PcB52; und [Ma08c| 
auf, ledighch der zweite Formant des [u] fäUt etwas zu hoch im Vergleich zu der Literatur 
(870 Hz bzw. 600 Hz) aus. 
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Bild 2.3: Zeitverlauf und Spektrum der Vokale [a], [i] und [u], von oben nach unten. 
Links sind 50 ms des zeitlichen Verlauf des mittels Mikrofon erfassten Signals zu 
sehen. Rechts daneben sind die logarithmierten Betragsgänge einer Periode daraus 
gezeigt, 20 dB Unterschied entsprechen einer lOfachen Amplitude. Gut zu erkennen 
sind die Formanten von [a] bei 700 Hz und 1,1 kHz und 2,4 kHz, von [i] bei 200 Hz, 
2,1 kHz und 2,9 kHz sowie von [u] bei 270 Hz, 1,3 kHz und 2,3 kHz. 
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Bild 2.4: Zeitverlauf und Spektrum der Konsonanten [m], [ij] und [1], von oben 
nach unten. Die Darstellung entspricht Bild l2.3l Bei [m] und [q] sind Formanten bei 
250 Hz bzw. 220 Hz gut zu erkennen, Frequenzen über 2,5 kHz bzw. 2,9 kHz sind 
stark bedämpft. Der Laut [1] weist neben den Formanten bei 330 Hz, 1,5 kHz und 
2,4 kHz eine Vertiefung im Spektrum bei ungefähr 3,2 kHz und 4,3 kHz auf. 
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3 Modelle des Sprechapparats 

In diesem Abschnitt erfolgt ein Rückblick auf die Entwicklung von Ap- 
paraturen zur künstlichen Spracherzeugung. Dabei wird deutlich, wie mit 
der technischen Entwicklung auch Fortschritte im Verständnis der physi- 
kalischen und akustischen Vorgänge des Sprechens erzielt wurden und wie 
eine detaillierte Betrachtung mit einer Verbesserung der Modelle und deren 
Spracherzeugung einhergeht. |f| 

Wie dieser Abschnitt zeigt, besteht bereits Ende des 18. Jahrhunderts ein 
Grundverständnis der Sprachproduktion. [^1 Im 19. und Anfang des 20. Jahr- 
hunderts werden für eine Reihe dieser Prozesse physikalische Modelle ent- 
wickelt und damit einhergehend gelingt eine zunehmend bessere quantitative 
Beschreibung von bestimmten Lauten, insbesondere derer aus Abschnitt 12. II 
Etwa Mitte des 20. Jahrhunderts gelingt es hier durch numerische Metho- 
den, direkt aus dem Sprachschall auf den Artikulationsvorgang zu schließen. 
Diese Verfahren werden seitdem weiter verfeinert und durch zahlreiche Un- 
tersuchungsmethoden ergänzt, um ein quantitatives Verständnis über alle 
Lautklassen und Artikulationseffekte hinweg zu erreichen. 

3.1 Mechanische Apparate 

Wenngleich es vor und im 18. Jahrhundert einige Berichte über „spre- 
chende" Apparate gab, so sind deren Mechanismen nur selten beschrieben 
oder tragen nicht zum Verständnis der Sprachproduktion bei, wie |Ru28| 

8. Wenn es auch einfache, frühere Beispiele gibt wie die Zeitansage der British Telecom 
1936 oder die Kursansage der New York Stock Exchange Ende der 1960er Jahre Ho H80| . 
so spalten sich ab etwa 1990 diese Wege, als man mit dem sogenannten PSOLA- Verfahren 
(Akronym von Pitch synchronous Overlap-Add) in der Lage war, aufgezeichnete Sprache 
in der Tonhöhe zu verschieben |VaMT9l] . Darauf aufbauend entstanden Sprachsynthesen, 
die auf immer größere Inventare aufgezeichneter Sprache zurückgriffen und deren Elemente 
mit möglichst geringer Beeinflussung aneinander setzten [Du94l IDu99| . Durch diesen phä- 
nomenologischen Ansatz zur Sprachsynthese wurden implizit viele Effekte beim Sprechen 
erfasst. 

9. Einige der phonetischen Erkenntnisse aus dem vorangegangenen Kapitel reichen 
deutlich weiter zurück. Ein gutes Beispiel ist der Bericht über die Ursachen von Lauten 

jjkll ili jik i_iLiu:i <1Ljj) von Ibn Sina aus der Zeit der ersten Jahrtausendwende (Über- 
setzt in [Sa09| ) . So werden in dem Bericht die unterschiedlichen Artikulations- bzw. Kon- 
striktionsstellen (i_HJ^) für eine Reihe von Konsonanten genannt. Ibn Sina erkennt drüber 
hinaus, dass bei einem [a] der Vokaltrakt relativ frei {^^ya Ajt ) bleibt, während für ein 
[u] die Verengung an den Lippen wesentlich ist. 

Dieser Bericht ist hier insbesondere erwähnenswert, da neben der Abhandlung der Arti- 
kulation und der Anatomie des Sprechapparats auch ein Vergleich zwischen Sprechlauten 
und anderen Geräuschen gezeigt wird. Aus heutiger Sicht sind einige der Analogien zwar 
einfache aber qualitativ treffende Modelle der Lautentstehung. So vergleicht Ibn Sina ne- 
ben weiteren Beispielen den Klang des [d^] mit dem einer platzenden Blase und den Klang 
des [h] mit dem Geräusch eines starken Luftstroms. 



3. Modelle des Sprechapparats 



13 



IF1R731 IGe94| IHaS95j darlegen. Vier bedeutende Ausnahmen finden sich, 
auf die im Folgenden eingegangen wird. 

Ein Experiment von Robert Hooke um 1680, das sprachähnliche Laute 
hervorbringt, wird in [Wal705] kurz beschrieben: 

By the striking of the Teeth of several Brass Wheels, proportio- 
nally cut as to their numhers, and turned very fast round, in 
which it was observable, that the equal or proportional stroaks of 
the Teeth [an einem schallabstrahlenden Gegenstand], that is, 2 
to 1, 4 to 3, &c. made the Musical Notes, hut the unequal stroaks 
of the Teeth more answer'd the sound of the Voice in speaking. 

Man kann hieraus folgern, dass die vergleichbaren Stimmlaute zu den har- 
monischen Grundtönen ein Spektrum ganzzahliger Obertöne besitzen, ihnen 
somit ein einziger periodischer Phonationsprozess zugrunde liegt — worauf 
im Abschnitt 12.61 bereits vorgegriffen worden ist. 

Eines der ersten dokumentierten Experimente zur Klärung der physio- 
logischen Unterschiede von Vokalen unternahm Kratzenstein um 1770, in- 
dem er sechs unterschiedlich geformte Resonatoren {Tuhae) konstruiert, die 
auf einer Zungenpfeife aufgesetzt werden, um die verschiedenen Vokale zu 
reproduzieren, vgl. Bild 13.11 Neben einer detaillierten Beschreibung der an 
der Sprachproduktion beteiligten Organe in |Krl781j erkennt er den Zusam- 
menhang zwischen Vokal, Zungenposition und gebildetem Hohlraum; er gibt 
diese quantitativ für die untersuchten Vokale auf S. 15 wieder. Auf S. 35 be- 
schreibt Kratzenstein die Reflektionen der Schallwellen im Sprechtrakt und 
sein Ziel, diese nachzubilden: 

Hae undae sonorae ex larynge in tuham adfixam incidentes inde 
vario modo et sub variis directionibus reflectuntur, et instar vocis 
hominum per tubam stentoream propagantur. 




Bild 3.1: Resonatoren nach [Krl781| . zur Synthese der Vokale a (in zwei Varian- 
ten), e, i, o und u, von links nach rechts. In dieser Arbeit diskutiert Kratzenstein 
auch die Unterschiede zur Anatomie des menschlichen Sprechtraktes. 

10. In [ChG28] wird beispielsweise notiert: „On satt encore que Friedrich von 
Knauss ä Vienna, avatt construtt avant 1770, trois tetes parlantes, et que cette annee-lä 
il en fit une quatrieme plus somptueusement presentee, car c 'etait un cadeau destine par 
le couple imperial d'Autriche au grand duc de Toscane ; celui-ci la plaga dans sa galarie ä 
Florence. Mais on ne posaede aucun detail sur la technique de ces travaux." ohne weitere 
Referenzen. [Knl780. .Fil868. .Ku30j erwähnen hingegen diese „sprechenden Köpfe" nicht. 
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Kurze Zeit später verfasste ein namhaftes Komitee der Academie royale 
des Sciences einen Bericht |PV1783I iLuTÜ] !^ über die Tetes Parlantes des 



Ahhe Micals. Ein mehrghedriger Mechanismus in den „sprechenden Köp- 
fen" erzeugt die beiden Sätzeri: 

Le Roi a donne la paix ä L'Europe. 
La paix fait le bonheur des peuples. 

Der Mechanismus ähnelt teilweise dem einer Orgel: Die Luft wird über einen 
Blasebalg zugeführt und durch mehrere Ventile in unterschiedliche, flaschen- 
ähnliche Kavitäten {hoite) geleitet. Diese formen den Klang. Die Steuerung 
erfolgt durch einen — vermutlich mit Nocken versehenen, rotierenden — 
Zylinder, der über Hebel die Ventile betätigt. Für die Erzeugung von Voka- 
len werden verschiedene Kavitäten benutzt, die sich in ihrer Gestalt, Größe 
und/oder Öffnung unterscheiden (Z. 56 ff.): 

1. Das a prononciert sich in einer der großen Flaschen [...]. Der 
Klang des Buchstaben a in der natürlichen Prononciation re- 
sultiert aus einer analogen Disposition, während der die Zunge 
fixiert im Innern des „Mundes" [ist], ihr Rücken erhebt sich ein 
bisschen, die zwei Backen sind insgesamt so geöffnet, dass man 
den gleichen Klang hört. 

2. Der Buchstabe o verändert sich in einer Flasche der gleichen 
Größe und der gleichen Form wie der Buchstabe a, mit dem Un- 
terschied, dass die obere Hälfte nicht immobil ist, sondern nur 
durch eine runde Öffnung durchbohrt. Im Effekt, wenn man den 
Buchstaben a prononciert, und man die Öffnung des Mundes än- 
dert, ohne die Situation der Zunge zu ändern, macht sich der 
Klang o anstatt des ersten hörbar. 

3. Die Öffnung des Mundes, wenn man den Buchstaben e pronon- 
ciert, hält die Mitte von denen, die für den Buchstaben a und für 
den Buchstaben o eingenommenen werden; auch die Vase, in der 
(I) der Buchstabe e sich hörbar macht, hat eine größere Öffnung 
als die erstgenannte, und eine kleinere als die letztgenannte, aber 
unterscheidet sich noch dadurch, dass sie keine detaillierte und 
mobile obere Hälfte hat, und dadurch, dass sie insgesamt kürzer 
ist als die beiden ersten. Die Proportion ihrer Öffnungen sind 
übereinstimmend mit denjenigen, die Hr. Kratzenstein beobachtet 
und bestimmt hat, der den Preis der Akademie von Petersburg 
im Jahr 1781 auf einem ähnlichen Gebiet [...] gewann. 

In analoger Weise wird auch der Laterallaut [1] erzeugt. Die Anregung er- 
folgt bei diesen Lauten durch eine Zunge [npfeife] mit einem Metallplätt- 



IL Der zumindest in der Kopie schwer zu entziffernde handschriftliche Bericht ist im 
Anhang, Abschnitt [16] transkribiert beigefügt. 

12. Nach |ChG28) vier Sätze, gezeigt anhand einer Referenz und der Illustration des 
Aufbaus. 
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chen, das verschiebbar ist und die Tonhöhe bestimmt: Im Bericht wird sie 
mit den Stimmhppen vergHchen. Frikative werden durch das Zischen der 
Luft in Engstehen und Plosive durch Verschlusslösungen gebildet. Wenn- 
gleich die erzeugten Sätze nicht in allen Teilen deutlich ausgesprochen seien, 
fand der Apparat den Beifall des Komitees und es wurde die approbation 
de l'Academie zuerkannt, derer er aufgrund der geistreichen (ingenieuse) 
Konstruktion sehr würdig sei. 

Aus der gleichen Zeit stammt die sprechende Maschine von Wolfgang 
Ritter von Kempelen. Sie besteht aus einem Blasebalg, einem Lederrohr 
und drei schallerzeugenden Instrumenten. Der Blasebalg treibt je nach Laut 
einen der Schallerzeuger an. Für Vokale wird eine Rohrblattpfeife genutzt, 
was zu obertonreichem Schall führt. Dieser wird durch das nachfolgende, 
variabel verdeckbare Lederrohr derart verändert, dass ihm die den Vokalen 
entsprechenden Formantenstrukturen aufgeprägt werden. Dabei stellt das 
Lederrohr einen Resonator dar, der demjenigen des Mundraums ähnelt. Die 
zwei verbleibenden Instrumente erzeugen die Frikative [s] und [J]. Die Be- 
dienung der Maschine stellt gewisse Anforderungen an die Geschicklichkeit 
des Experimentators. Mit der linken Hand muss die Öffnung des Lederrohrs 
entsprechend den Lauten verdeckt werden, sie dient gleichsam als Lippen 
und Zunge. Mit dem rechten Unterarm wird der Blasebalg betrieben, und 
die rechte Hand muss zudem die Ventile für die Frikative oder einen Me- 
chanismus für das /r/ bedienen und zur Simulation unnasalierter Laute die 
dafür vorgesehenen Offnungen zuhalten. Auch mit dieser Maschine ist es 
möglich, nicht nur einzelne Laute einer Sprache, sondern auch Wörter und 
kürzere Sätze zu erzeugen. Von Kempelen schreibt, man könne 

„in einer Zeit von drei Wochen eine bewundernswerte Fertigkeit 
im Spielen erlangen, besonders wenn man sich auf die lateini- 
sche, französische oder italienische Sprache verlegt ... 

bemerkt jedoch an anderer Stelle: 

„Vor allem muß ich gestehen, daß ich vier [der Konsonanten] 
nämlich D G K T noch nicht bestimmt in meiner Maschiene ha- 
be, sondern hierfür das P gebrauche. ... Wenn es aber ein feines 
Gehör bemerkt, so kömmt der Maschine immer ihre kindliche 
Stimme zu statten, [der man Artikulationsfehler nachsieht]. " 

Von Kempelen entwickelte die Maschine während seiner Studien zur Spra- 
che und beschreibt die Ergebnisse in |Kel79l] . Dieses Buch widmet sich in 
den ersten drei Teilen einer Definition von Sprache, etymologischen und phi- 
losophischen Betrachtungen der Sprachentstehung und der morphologisch- 
physiologischen Betrachtung der Artikulatoren. Der folgende phonetische 
Teil behandelt nach einer sprachenübergreifenden Lautsystematik die Ent- 
stehung der meisten in Tabelle [2.11 gezeigten Laute. Von Kempelen erkennt 
zutreffend, dass der Unterschied zwischen „weichen" und „harten" Plosiven 
in dem Zeitpunkt des Stimmeinsatzes — vor oder nach der Verschlusslösung 
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— liegt. Er zeigt, wie die Phonation stimmhafter Plosive durch einen Luft- 
strom aufgrund der Druckunterschiede von Lunge und Mundhöhle entsteht. 
Gestützt auf einen diese Artikulation nachbildenden Mechanismus führt er 
aus, dass sich [b], [d] und [g] durch verschiedene Verschlussstellen und damit 
durch verschiedene Klänge der jeweils unterschiedlich großen Hohlräume vor 
und hinter der Verschlusslösungsstelle unterscheiden. Bei den Frikativen [f], 
[s] und [J] (F, S, SCH) folgert er anhand von Experimenten, dass die Form 
der phonierenden Stelle wesentlich für deren charakteristischen Klang ist 
und erläutert, wie sie in der Sprechmaschiene nachgebildet ist. Desweiteren 
beobachtet er, dass bestimmte Laute kontextabhängig gewählt werden. So 
unterschiedet sich das „ch", welches einem [e] oder [i] folgt, deutlich von 
demjenigen, dass sich einem [a], [o] oder [ul anschließt: Im ersten Fall wird 
es als [q] artikuliert, im zweiten Fall als [x]|^. Ein weiteres gezeigtes Beispiel 
ist das „ng", das den Laut [q] bildet. Von Kempelen weist auf Koartikulation 
hin, wie der Nasalierung von Vokalen, denen ein [n] folgt, und begründet das 
mit einer kinetischen Vereinfachung. Ebenso erklärt er die kontextabhängige 
Lautwahl. Besonders eingehend betrachtet er die Bildung der Vokale. Hier 
erkennt er zwei wesentliche Merkmale, die die Vokale unterscheiden: Die 
Öffnung des Mundes und die Öffnung des ZungenkanalsEfl- Im letzten Teil 
des Buches beschreibt er detailliert die bereits erörterte Maschine und die 
Lauterzeugung damit. 

Die Vokalformanten selbst wurden in den 1820er Jahren durch WiUis 
untersucht [Wil828], indem er an eine Rohrblattpfeife ein auf der ande- 
ren Seite offenes Rohr mit verstellbarer Länge anschloss. Er erkannte, dass 
sich je nach Rohrlänge unterschiedliche Vokale ergaben, und führte dies auf 
die Eigenresonanz des Rohres zurück, die er tabellarisch angab. Eine späte- 
re, vergleichbare Untersuchung von Jones konnte nach |Pa30| . S. 17, diese 
jedoch nur teilweise bestätigen. Beide Untersuchungen sind in Tabelle 13.11 
zusammengefasst wiedergegeben. Paget zeigt später in |Pa30j . dass Vokale 
durch zumindest zwei Resonanzen charakterisiert sind. Er konstruiert mit 
diesem Wissen eine Reihe verbesserter Resonatoren für Vokale und einige 
Konsonanten. 

In dieser Zeit baute Wheatstone die Maschine von Kempelens nach. Be- 
merkenswert ist dabei der Ansatz, anstelle eines starren ein verformbares 
Lederrohr einzusetzen, vgl. Bild 13.21 Dadurch kam er den akustischen Ei- 
genschaften des menschlichen Rachentrakts erheblich näher. Er bestätigte 
damit den Zusammenhang zwischen der Form des Rachenraumes und den 
verschiedenen Hauptresonanzfrequenzen, den Formanten[^. Im 19. und noch 

13. Von Kempelen sieht hier die gleiche Lage der Konstriktion wie bei einem [k], |Ko99] 
erkennt eine etwas weiter hinten liegende Konstriktionsstelle: [x]. 

14. Kempelen gibt keine präzise Definition des Zungenkanals. Vergleicht man die von 
ihm angegebene Lautfolge U O A E I für dessen zunehmende Verengung mit dem Dia- 
gramm [521 so entspricht das einem Ablaufen im Uhrzeigersinn. 

15. Die Resonanztheorien des Sprechtrakts von Helmholtz, Hermann, Rayleigh, Scrip- 
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Rohrlänge (inch) 


Ton 


(Hz) 


Vokal (Willis) 


Vokal (Jones) 


6,5 




~378 






4,7 


c" 


523 


u 




3,8 


\>e" 


659 


o 


88 


3,1 


g" 


784 







2,2 




1109 


Q 


a-A 


1,8 


r 


1396 


U 




1,0 




2349 






0,6 




4186 


hay 


e 


0,4 


9^ 


6272 


i 


i 



Tabelle 3.1: Nach |Wil828| . S. 243, ergänzt durch die Untersuchungen von Jones 
und durch Frequenzangabe der Töne sowie einer DarsteUung im IPA. Die Frequen- 
zen entsprechen etwa A/4- Resonanzen der Rohrlänge. 




Bild 3.2: Wheatstones Nachbau von Kempelens Sprechapparat nach [F165| . Links 
neben dem gezeigten Ausschnitt ist ein Blasebalg zum Antrieb an die Druckkam- 
mer angeschlossen. In der Druckkammer befinden sich zudem weitere Pfeifen und 
Steuerhebel zur Erzeugung von Frikativen. 



Anfang des 20. Jahrhunderts wurden aus der Konzeption von Kempelens 
weiterentwickelte Geräte gebaut. Beispiele sind die Euphonia von Joseph 
Faber, bei der der Vokaltrakt aus Gummi hergestellt ist und durch Ta- 
sten über Drähte der natürlichen Artikulation entsprechend geformt wirdl^ 
und die Apparatur von Riesz, skizziert in Bild 13.31 nach |F165] . Diese zeich- 
nen sich durch die Verwendung einer wesentlich naturgetreueren Form des 
Ansatzrohres aus und haben eine gewisse Ähnlichkeit mit einem in dieser 
Arbeit verwendeten Sprechtraktmodell. Insbesondere ist der Vokaltraktbe- 
reich zwischen den Stimmbändern und den Lippen in mehrere Abschnitte 
unterteilt, deren Querschnittsflächeninhalt man den Lauten entsprechend 

ture, Trendelenburg, Wlieatstone und Willis sind in [Ru28l IChK41j zusammengefasst. 

16. In |Scl842] wird desweiteren berichtet, dass die Sprechmas chiene [...] vollständiger 
als die bisher dazu gemachten Versuche die menschliche Stimme [...] nachahmt und ziem- 
lich deutlich spricht. 
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Nasaltrakt 




Lippen 



Zähne 



Bild 3.3: Riesz'scher Sprechapparat, 1937. Die sechs verschiebbaren Segmente der 
Unterseite können in einer anderen Ausführung des Apparats mit Tasten, ähnHch 
einer Trompete, gesteuert werden. 

einstellen kann. Über den Apparat von Riesz wird a. a. O. berichtet: 

When operated hy a skilled person, the machine could he made to 
simulate connected speech. One of the particulary good utterances 
was reported to he "cigarette". 

— Personal communication, R. R. Riesz. 

Die quantitative Verwendung der Querschnittsflächeninhalte zur Bestim- 
mung der Vokaltraktkonfiguration gelingt in der Arbeit von Chiba und Ka- 
jiyama |ChK41| . Hierin werden für die Vokale [i], [e], [a], [o] und [ra] die 
Vokaltraktkontur anhand von Röntgenaufnahmen bestimmt, wobei auf den 
Artikulatoren angebrachte dünne Golddrähte, Stanniolbändchen oder aufge- 
brachtes Bariumsulfatpulver zur Hervorhebung von Konturen genutzt wer- 
den. Die während der Aufnahme aufgezeichnete Lautäußerung wird mit ei- 
nem akustisch vermessenen Modell und einem berechneten vereinfachenden 
zwei-Resonator-Modell verglichen. Das aus Gips geformte akustische Modell 
spiegelt den Verlauf der Querschnittsflächeninhalte wider. Ein Beispiel, bei 
dem die Spektren zwischen Lautäußerung, den Modellen und mit den in 
Abschnitt 12.61 für das [u] ermittelten qualitativ übereinstimmt. 

3.2 Elektronische Systeme 

In den vierziger Jahren wurden mit dem Beginn der Entwicklung der ma- 
gnetischen Signalaufzeichnung erste Zeitbereichsverfahren untersucht. Man 
zeichnete Sprache auf Tonbändern auf, segmentierte diese, indem man das 
Tonband in Abschnitte unterteilte, und fügte sie entsprechend der zu syn- 
thetisierenden Äußerung wieder zusammen. Es zeigte sich, dass Phonem- 
Segmente zu einer gänzlich unverständlichen Sprachwiedergabe führten. Ei- 
ne Segmentierung in Diphone war zwar erfolgreicher, aber auf Grund der 
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Größe des sich ergebenden Inventars^Zl anfangs nur exemplarisch handhab- 
bar, wie in |KüW56l ICr64| diskutiert. Weitere, ähnliche Untersuchungen wie 
|Gr76] zeigen die Bedeutung der Lautlängen. 

Hauptsächlich in den 1920er bis 1960er Jahren wurden, durch Fortschrit- 
te in der Analogelektronik ermöglicht, Formantensynthesizer entwickelt und 
untersucht. Einen der ersten Synthesizer El realisierte Stewart und beschreibt 
ihn 1922 in |St22| : Mittels zweier über einen Buzzer angeregte Resonanz- 
kreise, deren Resonanzfrequenzen an die beiden unteren Formanten ange- 
glichen werden kann, lassen sich Vokale und Diphthonge reproduzieren. 
|Gr25| ISt351 ILe36] zeigen kurze Zeit darauf mit weiterentwickelten elektro- 
nischen Analysesystemen, dass Sprache weitere Formanten enthält. Späte- 
re Synthesizer verfügen meist über zwei Signalgeneratoren, zur Erzeugung 
von periodischen Signalen und von Rauschen, zwischen denen je nach Phon 
umgeschaltet werden kann. Diesen folgt ein Filtersystem, wobei sich die 
Synthesizer hier in drei Typen unterscheiden lassen. Der 1939 von Dudley 
entwickelter Synthesizer Voder verwendet eine Filterbank, die aus Bandpäs- 
sen mit festen, aneinanderfolgenden Frequenzbändern besteht. Uber in einer 
Tastatur angeordnete Potentiometer können diese Frequenzbänder in ihrem 
Pegel verändert werden, wodurch die Formantstruktur bereichsweise gemit- 
telt nachgebildet werden kann. Wenngleich auf der Weltausstellung 1939 
und 1940 gezeigt, wird beispielsweise über den Voder in |Ma99] festgestellt: 

„... the synthetic speech, to judge from the recordings that still 
survive, was not highly intelligble." 

Bereits einige Zeit zuvor wurden ähnliche Filterbänke zur Sprachübertra- 
gung genutzt: Das von Schmidt in [Sc32j beschriebene Verfahren verwendet 
zwei gleiche Filterbänke, eine zur Analyse oder Kodierung von Sprachsigna- 
len und eine zweite Filterbank, die das Sprachsignal resynthetisiert bzw. de- 
kodiert. Die Ausgangssignale der ersten Filterbank werden mit verringerter 
Bandbreite übertragen und steuern die zweite Filterbank an. Die Steuerung 
des Synthesizers durch ein natürliches Sprachsignal vermied vermutlich eine 
Reihe von Abweichungen, die durch die beschränkten Möglichkeiten einer 
Tastatur des zuvorgenannten Synthesizers unvermeidlich waren, und dürf- 
te zu einem natürlicheren Zeitverlauf der Formantenstruktur und damit zu 
einer verständlicheren synthetisierten Sprache geführt haben. Eine in der 
Frequenzauflösung verfeinerte Variante war der von Cooper rund zehn Jah- 
re später entwickelte Pattern PlaybackSynÜiesizei , welcher optoelektronisch 
über einen Film gesteuert wurde; auf dem Film sind die Intensitäten ein- 
zelner Frequenzbänder durch die Transparenz paraleller Streifen kodiert. 

17. Mit dem Inventar wird die Menge alle Phoneme bzw. Diphone, die durch die Syn- 
these realisiert werden sollen, bezeichnet. Ein Phoneminventar umfasst ca. 50 Elemente, 
ein Diphoninventars folglich ungefähr 50-50 — 2500 Elemente. Weiterführendes findet sich 
bspw. in Eii97.j . 

18. Einen elektromechanischen Versuch sehr ähnlicher Konzeption zeigt Helmholtz be- 
reits in |Hel863) . Abschnitt „Künstliche Vokale". 
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Bild 3.4: Filterbanksynthese nach [Du38| 



Durch Abfahren des Films waren damit reproduzierbare Synthesen möglich, 
Beispiele finden sich unter (H L www] . Die für die damalige Zeit gute Ver- 
ständlichkeit {higly intelligihle [Co53j ) beruht ebenfalls auf der inhärenten 
Resynthese - die Filme wurden durch Analyse von Sprache gewonnen. 

Auf einer anderen Filterstruktur basieren die in den 1950ern entwickelten 
Orator Verhis Electris ( OVE) Synthesizer von Fant, der in [FaM62J beschrie- 
ben ist. Diese bestehen aus verstimmbaren Schwingkreisen, deren Mitten- 
frequenz und Pegel in unterschiedlichen Varianten manuell oder durch ein 
Steuerwerk vorgegeben werden können; zudem enthalten sie ein Filter, das 
bestimmte Frequenzen unterdrückt, wie es für bestimmte Laute typisch ist. 
Wenngleich hiermit sicherlich wichtige Formanten stationärer Laute genau 
wiedergegeben werden können, liegt die Schwierigkeit dieses Verfahrens in 
der treffenden Bestimmung und Nachbildung der Formantenbewegung, der 
zeitlichen Änderung von Güte und Mittenfrequenz. In ähnlicher Weise ar- 
beitet auch der Parametric Artificial Talker (PAT) von Lawrence aus der 
gleichen Zeit. Synthesen und Bilder finden sich unter [Tr98j . 

Der dritte Filtertyp basiert auf einer Kette von LC-Gliedern, über die 
sich die elektrischen Signale ähnlich ausbreiten wie eine ebene Schallwelle 
entlang dem Vokaltrakt. Dadurch werden nicht mehr einzelne Formanten be- 
trachtet, sondern die Formantenstruktur bzw. die Hüllkurve des Spektrums 
als Ganzes werden mit dieser Filterstruktur reproduziert. Dunn nutzt 1950 
diese Analogie für ein Sprechtraktmodell und stellt in [Du50] die Vorteile 
dieses Ansatzes fest: 

„A line wüh distributed constants is approximated through the 
use of 25 lumped sections, each representing a cylinder 0.5 cm 
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long and 6 cm**2 in cross section. The whole is then divided in- 
to two 'cavities ' hy the use of a lumped, hut variable, inductance 
which can he inserted hetween any two sections of the line. This 
represents the 'tongue hump' constriction. Another variable in- 
ductance at the end of the line represents the constriction at the 
Ups. [...] The whole series of English vowels can he produced hy 
this apparatus - not perfectly, hut distinctly hetter than we were 
ahle to make with three independent tuned circuits. " 

3.3 Digitale Signalverarbeitung 

Die digitale, zeitdiskrete Signalverarbeitung erlaubt eine einfachere und 
präzisere Modellierung und Steuerung. Kelly und Lochbaum übertrugen 
1962 in [KeL62] das Modell der Wellenausbreitung längs des im Querschnitts- 
flächeninhalt variierenden Vokaltrakts aufpassende digitale Filter, die Kreuz- 
gliedketten^l; sie greifen damit in vereinfachter Form (ohne Berücksichti- 
gung des Nasaltraktes) den Ansatz von Chiba, Kajiyama und Dunn erneut 
auf, indem sie die akustischen Vorgänge zeitdiskret und digital beschreiben. 
Im Unterschied zu den elektronischen Systemen von Dunn gelingt zudem 
die Modellierung eines wesentlich natürlicheren Querschnittsverlaufs, da je- 
dem Glied ein Querschnitt zugewiesen werden kann. Der Querschnittsverlauf 
wurde aus Röntgenaufnahmen ermittelt, die Fant angefertigt hatte. Durch 
die rechnergesteuerte Synthese gelingt auch die Erzeugung von Lautübergän- 
gen mit diesem Modell, wobei die breitbandige Anregung wieder wahlweise 
durch Rauschen oder periodische Signale erfolgt. 

Einen wichtigen Fortschritt bringt die Ende der 1960er Jahre gewonnene 
Erkenntnis, wie man anhand von Sprachsignalen die Filter koeffizienten be- 
ziehungsweise Querschnittsverläufe ermitteln kann. Grundlegende Arbeiten 
über die Eigenschaften von Sprachsignalen und deren Bezug zur Sprechtrakt- 
geometrie stammen von Mermelstein und Schroeder, die in j MeS65] zunächst 
nur auf Formanten betrachten, von Saito und Itakura, die in [SaI66| IItS68| 
IItS69j einen statistischen Ansatz basierend auf Maximum Likelihood verfol- 
gen und in der letztgenannten Arbeit die partielle Korrelation - PARCOR 
vorstellen, und von Atal und Schröder, die in |AtS671 IAtS70| die Linear 
Prediction zur komprimierten Sprachübertragung einsetzen. Nach [Ma72] 
gehen diese Verfahren, |ItS69| IÄtS70| . auf [Prl795j zurück. Eine alternative 
Betrachtungsweise wird von Burg aufgezeigt, die Entropie- Maximierung in 
|Bu67] , anhand derer er in |Bu68j ein insbesondere für kurze Signalabschnitte 
geeignetes Verfahren entwirft, mit dem man gut aus Sprachabschnitten die- 
se Koeffizienten schätzen kann, wie |GrM78j darlegt und Bild 13.51 illustriert. 
Letztlich ist aber die Ubereinstimmung durch das zugrundeliegenden Mo- 
dell begrenzt, wie |La05j in einem Uberblick unter Einbeziehung von Teilen 



19. die Filterstruktur wird in 14.61 beschrieben 
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Bild 3.5: Querschnitte durch Kreuzghedkettenfihern entsprechende Rohrmodelle 
des Vokaltrakts für die in Bild 12.31 gezeigten Laute [a] , [i] und [u] , von links nach 
rechts. Diese sind mit der in Teil Hill beschriebenen Software unter Verwendung 
der Burg-Methode, einer doppelten Preemphase und einer Abtastrate von 44,1 kHz 
bestimmt worden, die Glottis ist jeweils links, der Mund rechts. Skaliert auf die 
Vokaltraktlänge weisen sie große Ähnlichkeit mit MRI-Untersuchungen dieser Laute 
auf, vgl. bspw. [St08j. Abszisse und Ordinate sind zur Hervorhebung der Kontur 
nicht maßstäblich. 



dieser Arbeit aufzeigt: 

Yet, if one looks at the vowel spectra in more detail it turns 
out that appearently even for vowels the all-pole model has its 
deficiencies. 

3.4 Detaillierte anatomische Modelle 

Um das Verhalten bestimmter Artikulatoren genauer zu betrachten und 
zu verstehen, wurde in der jüngeren Vergangenheit für diese Artikulatoren 
eine Reihe detaillierter Modelle entwickelt. Ein Beispiel hierfür ist ein drei- 
dimensionales Zungenmodell, das von einem wenige Parameter umfassenden 
System in |iMe73j weiter verfeinert wurde, um die inhärente Kinematik zu 
berücksichtigen; eine Ubersicht gibt bspw. [BiJKOö] . Jedoch ergibt die indi- 
rekte Kontrolle über die Zungenbewegung letztlich noch keine befriedigende 
Artikulation, wie [GeWPPOS] zeigt, oder erfordert lautweises Nachjustieren 
von Parametern, wie in |BiJK06j ausgeführt. Ergänzt werden diese Modelle 
durch eine Reihe spezieller Untersuchungen der Zungenbewegung, beispiel- 
weise durch akustische Impedanzmessung nach |Sc67| IKoNR02] , durch Ul- 
traschall, wie in |ZhHH08l IWrSOS] beschrieben, oder mittels elektromagneti- 
scher Artikulatographie, wie [Sc83j zeigt. Letztere erfasst mittels kleiner auf- 
geklebter Spulen auch die Lippenformation und Velum- und Kiefernstellung 
mit Hilfe eines um den Probanden erzeugten ortsabhängigen magnetischen 
Wechselfeldes. 

Zur Untersuchung der Anatomie der Artikulatoren kommen auch weitere 
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etablierte Methoden aus der medizinischen Diagnostik zum Einsatz. Insbe- 
sondere radiologische Untersuchungs verfahren, wie Röntgendurchleuchtung 
und -kinematographie, wurden zeitweise verwendet. So wurde bereits 1897, 
weniger als zwei Jahre nach Entdeckung der Röntgenstrahlung, eine der er- 
sten Untersuchungen in |Scl897j publiziert: 

... Durchleuchtet man den Kopf seitlich, so sieht man auf dem 
Schirmbilde den Nasenrachenraum und den Pharynx als hellen 
Schatten hervortreten [...] . Lässt man nun die zu untersuchende 
Person einen Vocal phoniren, so sieht man, wie das Gaumensegel 
sich hebt, und zwar ganz verschieden in den Nasenrachenraum 
sich hinlegt je nach dem Vocal, den man aussprechen lässt. . . . 

Die Anwendung von Filmaufnahmen sind jedoch mit der Kenntnis über Risi- 
ken der Röntgenstrahlung sehr eingeschränkt; einige dieser Aufnahmen sind 
unter |MuVBT95] bereitgestellt. Kürzlich gelang jedoch die Aufzeichnung 
einschichtiger Magnetresonanztomographien des Sprechtrakts in Intervallen 
von 20 ms, wie |UeZVKMFTÜ] zeigt. 

Bereits Helmholtz argumentiert in [Hel863) . dass die Glottisschwingung 
unabhängig von der akustischen Konfiguration des Sprechtrakts ist und zeigt 
am Beispiel von Zungenpfeifen, welches sich auf die Glottisfunktion stimm- 
hafter Laute übertragen lässt, dass die hohe Schallintensität aus einer zy- 
klischen Unterbrechung der Luftströmung herrührt. Tondorff in |'To25] und 
in Folge van den Berg et. al. in |BeZD57l IBe58| erkennen den Bernoulli- 
Effekt als wesentlichen Beitrag zur Glottis-Schwingung. Darauf aufbauende 
1- und 2-Massen-Modelle der Stimmlippenvibration werden in |F1L68| bzw. 
in |IsM72| IIsF72] gezeigt. Seitdem ist eine Vielzahl von Modellen der Glot- 
tis beschrieben worden, die deren Schwingverhalten durch Finite-Elemente 
genauer nachbilden, in |Vr03] die akustischen und aerodynamischen Effek- 
te durch numerische Lösung der Navier-Stokes-Gleichung behandeln, oder 
wie in j0193 j einfach den zeitlichen Schalldruckverlauf genauer beschreiben. 
Letzteres wird auch in dieser Arbeit verwendet, vgl. Kapitel [TT] Gestützt 
werden diese Modelle durch Untersuchungen der Glottisschwingung, insbe- 
sondere mittels Hochgeschwindigkeitskameras und Elektroglottograph: Ver- 
fahren die erstmals in [TrW35', IBe37] bzw. in |Fa57| beschrieben werden. 
Eine Übersicht gibt jBaLMG83j. 

Auch für die Akustik der Nasenhohlräume wurden bestimmte Modelle 
entwickelt. So haben Lindqvist und Sundberg in |LiS72] das akustische Ver- 
halten des Nasaltrakts untersucht, indem Schall oberhalb des Velum mittels 
eines dünnen Rohres eingeleitet und der an den Nasenlöchern austretende 
Schall erfasst wurde. Unter Berücksichtigung des Einflusses der Schallquelle 
erhält man so das Ubertragungsverhalten. Bei dieser Methode ist es jedoch 
schwierig, die natürlichen Verhältnisse für die Abschlussimpedanz am Velum 
zu schaffen: Ist es abgesenkt, entspricht seine Artikulationsstellung derjeni- 
gen der nasalierten Laute, aber der Vokaltrakt beeinflusst die Messung - 
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genau umgekehrt wäre es bei einem angehobenen Velum. Weitere Untersu- 
chungen betreffen in |Ma821 IDaHS94] die ModelHerung von Nebenhöhlen, in 
|DaH95j die Bestimmung ihrer Resonanzfrequenzen, in |SuNS95] die Rele- 
vanz von Quermoden in den Nasengängen und in |SuNS96] die Auswirkung 
von Asymmetrien zwischen den Nasengängen. Bei letzteren werden Finite 
Elemente zur Bestimmung der Schallausbreitung eingesetzt, mit den bereits 
in Abschnitt [T] erörterten Nachteilen. 

Finite Differenzen zur Berechnung der Sprechtraktakustik sind vor den 
in dieser Arbeit durchgeführten Untersuchungen vereinzelt und nur für die 
Mundhöhle angewendet worden. In |Mc87j werden sie in 1-dimensionaler 
Form als Alternative zu dem von Kelly und Lochbaum vorgeschlagenen Ver- 
fahren zur Berechnung der Ausbreitung ebener Wellen diskutiert. Eine zwei- 
dimensionale Betrachtung findet sich in |Ri95| ICuMC95l IA1S95| ; in letzterer 
werden rotationssymmetrische Lösungen untersucht. Mit Wellenleitern wur- 
de zwischenzeitlich eine zwei- und dreidimensionale Modellierung der Aku- 
stik der Mundhöhle versucht, wie [CoMHTÖGl |Sp08[ IFr09j zeigen, wobei je- 
doch eine prinzipbedingte Anisotropie der Wellenausbreitung verbleibt. Die- 
sen Fehler vermeiden die in |Mo02] gezeigten Wellenleiter höherer Ordnung, 
die eine akkurate Beschreibung des Mundbereichs erlauben. Zur vereinfach- 
ten Anwendung von Finiten Elementen ist in |,SaMM03j ein automatischer 
Mesh-Generator für einen elliptisch konturierten Vokaltrakt gezeigt. Kürz- 
Uch ist in [TaMKlO] die Akustik von Kunststoffmodellen, deren Geometrie 
sich an den Mund-Rachenbereich des Vokaltrakts anlehnt, vermessen wor- 
den und zeigte im Vergleich zu einer einfachen Finite-Differenzen-Simulation 
derselben eine gute Ubereinstimmung. 
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4 Ausbreitung ebener Wellen: 

Das Rohrmodell des Sprechtrakts 

Wie im vorangegangenen Teil deutlich wurde, ist der Vokaltrakt auf- 
grund seiner Variabilität das wesentliche Element der natürlichen Spracher- 
zeugung. In diesem Teil werden die Grundlagen für seine Nachbildung mit 
zeitdiskreten digitalen Filtern vorgestellt. Die Schallwellen werden dazu ver- 
einfacht mit einer ebenen Wellenfront angenommen und deren Ausbreitung 
entlang des Vokaltrakts betrachtet. 




Bild 4.1: Diskretisierung des Vokaltraktes — schematisch 

Für die als Rohrmodell bezeichnete Abstraktion unterteilt man zunächst 
den Vokaltrakt in gleichlange Abschnitte, wie links in Bild 14. Ii angedeutet. 
Dabei idealisiert man die Abschnitte in homogene Bereiche, die Krümmung 
des Vokaltrakts bleibt unberücksichtigt, und abrupte Querschnittssprünge. 
Das resultierende Modell ist rechts in Bild 14 . 1 1 dar gestellt . Für dieses Modell 
lassen sich handhabbare Filter finden, die in den nachfolgenden Abschnitten 
beschrieben werden. Anhand dieser Filter lässt sich das Ubertragungsver- 
halten bestimmen. Umgekehrt lassen sich auch die Filter koeffizienten aus 
dem Betragsspektrum von Sprachproben schätzen, wie in den weiteren Ab- 
schnitten gezeigt wird. 
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4.1 Matrixdarstellung von Wellenleiterelemente 

Schallharte Rohrsysteme kann man, solange ihr Querschnitt klein gegen- 
über den Wellenlängen der betrachteten Schwingungen ist[f^, als eindimen- 
sionale Wellenleiter auffassen; es wird nur die Ausbreitung ebener Wellen 
berücksichtigt. 

Ein geeignetes Mittel zur Beschreibung eindimensionaler Wellenleiter 
sind zum einen Adaptoren, die Querschnitts- beziehungsweise Impedanz- 
sprünge und Verzweigungen darstellen können. Zum anderen werden ho- 
mogene Abschnitte des Wellenleiters durch Leitungs- bzw. Laufzeitelemente 
erfasst. Ihnen gemeinsam ist ihr lineares Ubertragungsverhalten, welches 
sich in Form von Matrizen beschreiben lässt, vgl. [La96j . Die dabei zugrun- 
de liegende Idee ist die Separation der Wellenausbreitung in eine hin- und 
eine zurücklaufende Welle, da diese Lösungen der Differentialgleichung sind, 
die den homogenen Wellenleiter beschreibt. Adaptoren verknüpfen dann die 
hin- und zurücklaufende Welle. 

Im Folgenden werden zwei wichtige Typen von Matrizen eingeführt. Für 
ein lineares System mit zwei Eingängen ai und 02, die in dem Vektor a = 

t*^^ I zusammengefasst werden, und zwei Ausgängen, b = ( | , kann man 
deren Beziehung durch eine Streumatrix S angeben: 

= Sa. 




Sil S12 
^S21 S22 

Eine andere Darstellungsform ist die Betriebskettenmatrix T, sie erlaubt 
das Aufmultiplizieren verketteter Adaptoren. Die Definition von T ist: 

= T 

Hieraus ergibt sich folgender Zusammenhang zwischen T und S: 

det S sii\ 

-S22 1 ; ' 

Als Ein- und Ausgangssignal sind physikalischen Größen geeignet, die 
sich durch eine linearen Funktion oder Differentialoperator aus dem akus- 
tischen Potential $ bilden lassen, wie der Schalldruck p = —pd/dt^, die 
Schallschnelle v = V$, der Schallfluss u = FV^ und die nach [Ei96j vorteil- 
hafte Wurzelleistung .^pü = -p^J^-^^ = ^/ZoFV^. Mit t ist dabei die 
Zeit, mit F die Rohrquerschnittsfläche, mit p die mittlere Luftdichte und 
mit Zq der Wellenwiderstand bezeichnet. 





20. Die niederfrequenteste Radialmode eines Zylinders, die Besselmode j{l,0), ergibt 
bei einem Durchmesser von 3,6 cm eine Resonanzfrequenz von 5,8 kHz, die Eigenresonanz 
einer Kugel gleichen Durchmessers liegt bei 6,3 kHz. 
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4.2 Leitungselement 




Bild 4.2: Leitungselement 

Bild 14.21 zeigt ein Leitungselement der Länge / mit konstanter Quer- 
schnittsfläche, dass in zwei Richtungen von Schall durchlaufen wird. Bedingt 
durch die endliche Signalausbreitungsgeschwindigkeit, die Schallgeschwin- 
digkeit c, tritt eine zeitliche Verschiebung, beschrieben durch die Laufzeit 
At = ^, zwischen den Eingängen a und den Ausgängen b auf: 

bi{t) = a2{t-At) , 
b2{t) = ai{t- At) . 

Um dieses Verhalten mittels zeitdiskreter Filter zu beschreiben, wird 
die Abtastperiode der Filter - zunächst!^ - so gewählt, dass sie der Lauf- 
zeit der Leitungslänge entspricht. Mit den Abbildungen bn^k = bn{kAt) und 
On,fc = a„(/cAt) unter Berücksichtigung des Abtasttheorems, d. h. die Band- 
breite des zeitkontinuierlichen Signals sei kleiner der halben Abtastfrequenz, 
gewinnt man eine zeitdiskrete Darstellung: 

bi± = a2,fc-i ! 
b2,k = ai,fc-i • 

Transformiert man diese Gleichung in den 2^-Bereich, in Abschnitt [TT] 
wird auf die Zusammenhänge eingegangen, so folgt aus dem Verschiebungs- 
satz: 

Bi(z) =z-iA2(z) , 
B2(z) =z-iAi(z). 

Dies führt zu den Streu- und Betriebskettenmatrizen: 



21. Es wird sich in Abschnitt 14.61 zeigen, dass man die Periodenlänge vorteilhaft ver- 
doppeln kann. 
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Die Matrizen des Leitungselements können erweitert werden, um eine 
beispielsweise durch Reibung, thermische Austauscheffekte oder Wandvibra- 
tion hervorgerufene Dämpfung zu berücksichtigen. In der einfachsten Form 
kann man hierfür eine linearen Dämpfungsterm mit dem Parameter a. ver- 
wenden, wodurch sich die erweiterten Streumatrix und entsprechende Be- 
triebskettenmatrix ergeben: 

Der Dämpfungsfaktor ist von der Querschnittsfläche abhängig, und kann zur 
Verbesserung der phänomenologischen Approximation der Dampfungsursa- 
chen auch frequenzabhängig formuliert werden. Auf die Frequenzabhängig- 
keit der Dämpfung wird in Abschnitt 18.31 weiter eingegangen. 

Einem homogenen Leitungselement lässt sich eine akustische Impedanz 
^ak zuordnen, die durch das Verhältnis von Schalldruck p zu Schallfluss u, 
dem Produkt aus Schallschnelle v und Rohrquerschnittsfläche F, definiert 
ist. Die akustische Impedanz steht damit zur Feldimpedanz Z^, dem Ver- 
hältnis von Schalldruck und Schallschnelle, in folgender Beziehung: 

^ak _ _ _ Jl^O 

u Fv F ' 

die jeweils für hin- und rücklaufende Welle, also jeweils für die untere und 
obere Gleichung der drei anfangs erörterten Gleichungsdubletten gültig ist. 

4.3 Querschnittssprung 




Bild 4.3: Querschnittssprung 

Bei dem in Bild 14.31 dargestellten Querschnittssprungl^ von der Fläche 
-Fl auf die Fläche F2 wird ein Teil der einlaufenden Welle reflektiert, der 



22. Der Querschnittssprung soll keine axiale Ausdehnung besitzen, das betrachtete Vo- 
lumen ist folglich gleich Null. 
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andere Teil transmittiert. Dies wird am Beispiel von Wellen in Druckdar- 
stellung genauer betrachtet. 

Das in den Querschnittssprung einströmende Volumen muss gleich dem 
ausströmenden sein;[f2|die Flüsse u sind das Produkt aus Querschnittsfläche 
und Geschwindigkeit (Schnelle) v: 

Ul = —U2 <^=^ -^1^1 = —F2V2- 

Die Zerlegung von v in die Teilschnellen vi = Vai — Vf,i und V2 = Va2 — Vb2, 
orientiert an den jeweiligen Pfeilen in Bild l4.3| und die Verknüpfung v = -^p 
mit der Schallgeschwindigkeit c führen zu 

Fl{Pal - Pbl) = -F2{Pa2 " Pb2)- 

Da zudem der Druck p als intensive Größe eindeutig ist, muss die Summe 
der linksseitigen Teildrücke gleich der der rechtsseitigen sein, also 

Pal +Pbl = Pa2 +Pb2- 

Das sich aus den letzten beiden Gleichungen ergebende Gleichungssystem, 
nach pb aufgelöst, ergibt: 

Pbl = TY+rf^'al + 7Y+7jPa2 
Pb2 = TY+k^*"! + 

Daraus ergibt sich die Streumatrix der Tabelle HTT] in Druckdarstellungl^ 
mit dem Reflektionsfaktor 

Fl — F2 
r = . 

F1+F2 

Der Reflektionsfaktor kann Werte aus [—1, 1] annehmen. Besondere Beach- 
tung verdienen der Randwert hier ist die zweite Fläche gleich Null, man 
spricht von einem schallharten Abschluss, und der Randwert —1, die zweite 
Fläche ist infinit groß, ein schallweicher Abschluss. In beiden Fällen wird die 
Welle vollständig reflektiert, im zweiten mit umgekehrter Phasenlage. 

Der Reflektionsfaktor kann auch durch die akustischen Impedanzen des 
rechts- und linksseitigen Rohrs, Zf^ bzw. Zf'^, ausgedrückt werden. 

_ Fl - F2 _ Z^/Zf - Z^jZf _ Zf - Zf 

~ F1 + F2 ~ zyzfTzyzf ~ ~ zf + zf ' 

Ein Zusammenhang, der über Rohrmodell hinausgehend weiter von Nutzen 
ist. 

23. Dieses folgt aus dem Gaußschen Integralsatz /^Vt; dV = §gy'v da, da nach Voraus- 
setzung V = sein soll. Somit ist auch fr^yV da = 0. 

24. Die anderen Tabelleneinträge ergeben sich durch Auflösen nach Ub, Ib und so fort. 
Sie stellen verschiedene Sichtweisen des gleichen physikalischen Vorgangs dar. 
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Darstellung 



Druck 
Fluss 

WurzelleistunE 



r 1 — r 

1 + r —r 

r 1 + r 

1 — r — r , 



r \/l — 



1 — r 



l+r 
1 

1-r 
1 



'1 r\ 

^1 A ' 

,r 1 



Tabelle 4.1: Streu- und Betriebskettenmatrixdarstellung des 2-Tor Adaptors 



4.4 Mehrtor-Adaptor 



Analog dem 2-Tor-Adaptor zur Beschreibung des Querschnittssprungs 
gilt für Mehrtor-Adaptoren mit n Ein- und Ausgängen: 

Pak + Pbk = Pal + Pbl V/c,/ G {l,2...n} , 

n 

^ Uai -Ubi = . 
i=l 



Es ergibt sich somit die Streumatrix: 



( Sil 



\hn) 



Sl2 



S2l S22 



\Snl Sn2 



5ln\ 



S2r, 



(ai\ 

02 



Sa. 



nn ) ) 



In S ist Sfcfc 



1 und für / 7^ /c in Druckdarstellung sn^ 



Fe ' 



mit 



Fs = X] -^j- Die Flussdarstellung ergibt sich analog: si^ = 

i=l ^ 

Mit dem Mehrtor-Adaptor lassen sich Verzweigungen des Wellenleiters 
beschreiben. Diese, für eine Reihe von Fragestellungen zur Sprechtrakt- 
akustik relevante Erweiterung des Sprechtraktmodells wird in Abschnitt 14.8 
eingehend betrachtet. Alternativ ist die Ankopplung von nicht unmittelbar 
akustisch motivierten Filtern über den Mehrtoradaptor möglich, wie in Ab- 
schnitt 111.21 gezeigt ist. Desweiteren kann der Mehrtoradaptor verwendet 
werden, um weitere Anregungen, wie das Rauschen der Frikative, an be- 
stimmten Stellen in das Modell des Vokaltrakts einzuspeisen, um damit die 
Schallquelle an der Verengungsstelle von Frikativen phänomenologisch und 
die Schallausbreitung wirklichkeitsnah nachzubilden. 
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4.5 Schallabstrahlung 

Bei der Schallabstrahlung am Mund und in gleicher Weise von den 
Nasenlöchern findet ein Übergang von der akustischen Impedanz des Rohr- 
querschnitts zu der des Freifeldes statt. Um diesen Ubergang von einem 
Rohr mit endlicher Querschnittsfläche in einen sehr viel größeren Halbraum 
zu beschreiben, kann in erster Näherung ein Querschnittssprung-Adaptor 
mit dem Reflektionsfaktor r = — 1 gewählt werden, wie in Abschnitt 231 be- 
schrieben. 

Befindet sich der Querschnitt der AustrittsöfFnung in der Größenord- 
nung der betrachteten Wellenlängen, so gibt diese Näherung die physikali- 
schen Vorgänge allerdings nur unvollkommen wieder, da an dieser Stelle ein 
Ubergang der ebenen Wellen des Rohrmodells in die kugelförmigen Wellen 
des Halbraums stattfindet. Dies wirkt sich besonders auf Moden höherer 
Frequenz aus, die durch den daraus resultierenden Strahlungswiderstand 
stärker gedämpft werden. Laine hat in |La82j für die Impedanz das folgende 
Modell vorgeschlagen: 

_ a{l-z-^) 
^P'- 1 + 6^-1 ' 

wobei die Parameter a und b von dem Verhältnis des OfFnungsradius zu dem 
Produkt aus Abtastperiode und Schallgeschwindigkeit abhängen. 

Ein einfacher Hochpass bildet zwischen den beiden zuvor genannten Be- 
schreibungen einen Kompromiss bezüglich physikalisch treffender Modellbil- 
dung und Filter komplexität. Ein wichtiger Vorteil des einfachen Hochpasse 
liegt darin, dass sowohl dessen Koeffizient als auch die Sprechtraktkonfigu- 
ration in einfacher Weise aus einem Sprachsignal geschätzt werden können, 
wie in Abschnitt 14.71 gezeigt wird. 



4.6 Kreuzgliedketten 

In diesem Abschnitt werden die aus Adaptoren und Leitungselementen 
kombinierbaren Filter betrachtet, die das akustische Ubertragungsverhalten 
des Sprechtrakts nachbilden. Diese Filter bestehen aus einer alternierenden 
Folge von 2- Tor Adaptoren und Leitungselementen. Dies veranschaulicht der 
Signalflussgraph in Bild 14. 4[ bei dem der Eingang oi und der Ausgang 62 
ist. Die Ubertragungsfunktion 

erhält man durch Multiplizieren der Betriebskettenmatrizen: 

= TiT2T3T4---Tn_iTn. 
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Bild 4.4: Signalflussgraph eines unverzweigten Rohrsystems. Der Signalflussgraph 
basiert auf Tabelle [4. 11 letzte Zeile, und zeigt die typischen namensgebenden kreuz- 
förmigen Elemente, die kettenartig angeordnet sind. 



Die Übertragungsfunktion besitzt nur Pole. Aufgrund der Beschränkung von 
r liegen die Pole innerhalb des Einheitskreises, somit ist das System stabil.!^ 
In Abschnitt [T3] wird ein Beispiel für die Berechnung der Ubertragungs- 
funktion gegeben. An diesem Beispiel fallen die nur gradzahlige Potenzen 
von z in der Ubertragungsfunktion auf. Die daraus folgende symmetrische 
Ubertragungsfunktion deckt sich nur in der unteren Hälfte mit Messungen, 
vgl. Bild 12. 31 und Bild 12. 41 Die Grenzen des Modells sind in der oberen Hälfte 
der Ubertragungsfunktion überschritten, da der Vokaltrakt eben nicht stück- 
weise homogen ist. Dies kann durch eine Beschränkung der Betrachtung auf 
die untere Hälfte der Ubertragungsfunktion oder durch einen anderen An- 
satz zur Beschreibung der Laufzeit glieder behoben werden. Für letzteren 
halbiert man die Laufzeit für hin- rücklaufende Welle von z~^ auf 
Realisierbare und den Vokaltrakt treffend beschreibende Filter erhält man 
daraus, in dem die Laufzeit glieder der hin- und rücklaufenden Welle alter- 
nierend in dem Signalflussgraphen wieder zu z~^ zusammenfasst werden, 
also im Ergebnis die in Bild 14.41 gestrichelt gezeichneten Laufzeitglieder ent- 
fernt werden. Vertiefendes zeigen |La96j und die dort genannten Referenzen. 
In den Darstellungen dieser Arbeit wird überwiegend die erste Alternative 
genutzt, um einen direkten Vergleich mit den hauptsächlich betrachteten 
Finiten Differenzen zu ermöglichen, die Implementierungen verwenden stetz 
die mit geringerem Rechenaufwand behafteten halbierten Laufzeiten. 

4.7 Parameterschätzung 

Der Querschnittsverlauf des Sprechtrakts beziehungsweise die Parame- 
ter des äquivalenten Kreuzglied-Kettenfilters können anhand von Sprach- 
signalen bestimmt werden. Diese Methode wird im Folgenden genauer be- 
schrieben. Um zutreffende Querschnittsverläufe zu erhalten, muss hierfür 



25. Man schließt die beiden in diesem Fall physikalisch nicht sinnvollen Extremalwerte 
r = +1 und r — —1 aus. 
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Bild 4.5: Parameterschätzung mittels Burg-Methode aus einem Lautspektrum. 
Gezeigt ist das Betragsspektrum des Lauts [1] in Balkendarstellung, die Analyse 
mittels Burg-Methode als dünne Linie und selbige nach Anwendung einer zwei- 
fachen Preemphase, dicke Linie. Es ist gut zu erkennen, dass die Preemphase den 
spektralen Abfall eliminiert, der nicht aus dem Querschnittsverlauf des Sprechtrakts 
selbst resultiert, aber dessen Resonanzeigenschaften erhält. 



der Einflüsse des Sprechtrakts von anderen Einflüssen getrennt werden, die 
eine spektrale Färbung des Sprachsignals hervorrufen. 

Die spektrale Färbung (Spektrum) des Sprachsignals S{z) wird durch die 
Glottis G(z), die Abstrahlung R{z) und den Sprechtrakt a{z) hervorgerufen: 

S{z) =R(z)H(z)G(z). 

Für die Schätzung der Parameter eines Filters, welches den Vokaltrakt be- 
schreibt, ist folglich von dem Spektrum des Sprachsignals die spektrale Fär- 
bung durch Glottis und Abstrahlung durch eine Vorfilterung zu entfernen. 
Der spektrale Effekt von Anregung und Abstrahlung wird in guter Näherung 
durch ein Produkt von Filtern erster Ordnung beschrieben, die eine Hoch- 
oder Tiefpasscharakteristik aufweisen. Diese Charakteristik unterscheidet 
sich deutlich von den Formanten des Sprechtrakts, die durch Resonanzstruk- 
turen gebildet werden, also Produkte Filter zweiter Ordnung sind. Entspre- 
chend kann man einfach in guter Näherung durch eine Einschränkung auf 
einen Koeffizienten der im Folgenden beschriebenen Linear Prediction die 
Anregungs- und Abstrahlcharakteristik bestimmen, indem man diese ein- 
oder mehrfach anwendet. Bild 14.51 zeigt das Resultat einer Schätzung des 
Betragsgangs des Vokaltrakts für eine doppelte, adaptive Preemphasern. 

Die Idee hinter der Linear Prediction ist die Vorhersage des weiteren 
Signals anhand eines Abschnitts zurückliegender Signalwerte durch ein li- 
neares System, welches die Signalwerte linear kombiniert: je genauer diese 
gelingt, um so besser bildet das System die betrachtete Signalquelle nach. 
Entsprechend gut kann man von den ermittelten Systemeigenschaften auf 
die ursprüngliche Signalquelle schließen. In Abschnitt 13.31 sind bereits einige 
dieser Verfahren genannt. Sie unterscheiden sich hinsichtlich des Maßes, mit 



26. Auf eine Übersetzung des gebräuchlichen engl. Ausdrucks wird verzichtet. 
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dem der Abstand zwischen vorhergesagtem und wirkhchem Signal gemessen 
wird und in der algorithmischen Herangehens weise. |La05] betrachtet die 
unterschiedlichen Verfahren und kommt zu dem Schluss, dass sie sich im 
Ergebnis für die hier betrachteten Laute trotz verschiedener Ansätze kaum 
unterscheiden. Exemplarisch wird deshalb nur auf zwei Verfahren eingegan- 
gen, die auch in Teil Hill verwendet werden. 

Der Burg- Algorithmus und das Verfahren nach Itakura und Saito neh- 
men als Signalquelle ein autoregressives System an, wie das Rohrmodell des 
Sprechtrakts, dessen Ubertragungsfunktion nur Pole aufweist. Das System- 
verhalten lässt sich durch ein rekursionsfreies Filter invertieren, der durch 
Umkehreren der oberen Signalfussrichtung in Bild 14 .4 1 gebildet wird; oben lie- 
gende Laufzeitelemente werden überlicherweise nach unten verschoben, die 
Ordnung n/2 des Filters entspricht der Anzahl der Laufzeit- bzw. Kreuz- 
glieder des Rohrmodells. Für dieses rekursionsfreie Filter lassen sich aus 
Signalabschnitten der Länge l die Filterkoeffizienten schrittweise bestim- 
men. Nach Burg ist 

i 

—2 J2 fi,kbi,k 
k=l 

= ~i 1 

J2 fi^k + ^ ^i.k 
k=l k=l ' 

und mit PARCOR nach Itakura und Saito ist 

/ 

— J2 fi,kbi,k 
_ k=l 

jl l 
V k=l k=l 

womit = fi^k + rA^k-i und = bi^k-i + = für 

den nächsten Schritt gebildet wird. Dabei sind rj, fi und bi dem Adaptor 
zugeordnet, letztere sind die rechtsseitigen Signale im oberen bzw. un- 
teren Signalpfad. Zu Beginn wird = ~1) ^n/2,fc = gesetzt und /„/2,fc 
mit den Signal werten des betrachteten Abschnitts belegt. Die Algorithmen 
enden mit der Berechnung von ri. Beide Verfahren sind mit der Einbe- 
ziehung der Signalenergie im oberen und im unteren Pfad numerisch stabil, 
sie unterscheiden sich lediglich in deren Mittelung, die bei Burg arithme- 
tisch und nach Itakura und Saito geometrisch erfolgt. Man erkennt an den 
Gleichungen zur Reflexionsfaktorbestimmung die Arbeitsweise beider Ver- 
fahren: Je größer der Korrelationskoeffizient zwischen den Signalen fi, bi ist, 
oder allgemeiner die Kreuzenergie im Verhältnis zum Mittel, umso größer 
ist der inverse Reflexionsfaktor, wodurch diese Korrelation in dem folgenden 
Mischschritt beseitigt wird. Da beide Signale anfangs gleich sind, werden sie 
so Schritt um Schritt spektral weißer. 
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4.8 Verzweigte Rohrsysteme 

Mit verzweigten Rohrsystemen lassen sich weitere akustische Prinzipien 
des Sprechtrakts während der Artikulation bestimmter Laute untersuchen. 
Dies wird im Folgenden exemplarisch gezeigt und dabei die zugrundeliegende 
Methodik betrachtet. 

So lassen sich die beiden um den vorderen Zungenbereich herumfüh- 
renden Passagen bei dem später noch eingehender betrachteten Laterallaut 
[1] durch ein in diesen Bereich aufgespaltenes Rohrsystem beschreiben, wie 
bspw. [ZhEWT03| ausführt: Durch die unterschiedlichen Schall- bzw. Si- 
gnallaufzeiten in beiden Passagen aufgrund von natürlichen Asymmetrien 
ergeben sich bei bestimmten Frequenzen Interferenzen, die eine Schallab- 
strahlung verhindert oder reduziert und als Nullstellen im Spektrum her- 
vortreten. 

Nach |MüM03] lassen sich mit einer Abzweigung Quermoden in einem 
rotationssymmetrischen Rohrsystem vereinfacht betrachten, solange sie be- 
stimmten Proportionen genügen. An diesem einfachen Beispiel lassen auf 
kurzem Weg die Auswirkungen von Quermoden bzw. Abzweigungen zeigen. 
Als Abzweigung wird ein einseitig geschlossenes, homogenes Rohr mit der 
Gesamtlaufzeit z"" verwendet; diese Abzweigung setzt an einem Rohr mit 
gleichem Querschnitt an. Für den dreifach querschnittsgleichen Dreitorad- 
aptor in Druckdarstellung gilt nach Abschnitt 14.41 

. /-l 2 2 \ (ai\ 
62 = - 2 -1 2 02 
V&3/ V 2 2-1/ {a^J 

und führt im ^-Bereich mit der am dritten Tor angesetzten Gesamtlaufzeit 
A3 = z-'^Bs zu 

B2) 3 + z-^[2 -1) [A2) 

und schließlich zur Ubertragungsfunktion H{z) = B2/A1 = ' . Sie 

unterscheidet sich durch das Auftreten von Nullstellen und in dem Grup- 
penlaufzeit, die in Bild 14.61 gezeigt ist, von einer durch Querschnittssprung- 
Adaptoren beschriebenen Ausbuchtung. Diese zusätzliche Gruppenlaufzeit 
der Bessel-Mode bewirkt folglich eine akustische Verlängerung des einfa- 
chen Rohrs und damit eine Frequenzverschiebung von Resonanzen aus den 
Querschnittsverlauf zu tieferen Frequenzen hin. 

Wie in Bild 14.11 erkennbar ist und beispielsweise in [Li98j eingehend be- 
trachtet wird, kann der Nasaltrakt, als Rohr modelliert, über ein Dreitora- 
dapter zur Nachbildung der Öffnung des Gaumensegels mit dem pharyngal- 
oralen Bereich des Sprechtrakts gekoppelt werden. Diese Idee weiterführend 
ist zu Beginn dieser Arbeit in [RaSL99^ untersucht, ob man durch ein ver- 
zweigtes Rohrsystem, dessen Topologie an der des Nasaltrakts orientiert, die 
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Akustik des Nasaltrakts erfassen kann. Dies motiviert die in Bild 14.71 gezeig- 
te Filterstruktur. Die Nachbildung des Ubertragungsverhaltens gelingt mit 
dieser Struktur bis etwa 3 kHz befriedigend, für höhere Frequenzen zeigen 
sich erhebliche Abweichungen. Auf eine weitere Betrachtung, ob die dem 
Filter zugrundeliegenden Rohrquerschnitte die Geometrie des Nasaltrakts 
widerspiegeln, wird deshalb verzichtet. 

Die Berechnung der Übertragungsfunktion erfolgt bei einfach verzweig- 
ten Rohrsystemen, indem die Betriebskettenmatrixen der Verzeigung auf- 
multipliziert werden und das Produkt zur Elimination des dritten Tors des 
Dreitoradapters genutzt wird, wie in dem ausgeführten Beispiel. Der redu- 
zierte Dreitoradaptor kann dann in eine Betriebskettenmatrix umgeformt 





Y 



0,2 0,4 0,6 0,8 1,0 

Bild 4.6: Links: Rotationssymmetrische Rohrerweiterung, deren Besselmode mit 
der überlagerten Filterstruktur berücksichtigt wird. Das Symbol -i- kenzeichnet den 
Dreitoradaptor, -■- ein Zweitor-Kreuzgliedelement und dazwischenliegende Linien 
Laufzeiten. Betrachtet werden schattierte/gefüllte Elemente; X und Y bezeichnen 
Ein- und Ausgang. Rechts: Zusätzliche Gruppenlaufzeit für n = 2. 




X- 



yr 



Bild 4.7: Links: Horizontaler Schnitt durch den Nasaltrakt, überlagert mit einer 
stilisierten Filterstruktur. Diese beginnt links am Velum, spaltet sich an der Na- 
senscheidewand auf, erfasst über Abzweigungen die größten Nebenhöhlen {Sinus 
maxillaris, oben und unten) und führt bis zu den beiden Nasenlöchern. Rechts: Fil- 
terstruktur, verdeutlicht mit den Symbolen -i- für Zwei- und Dreitoradaptor. 



4. Ausbreitung ebener Wellen: 
Das Rohrmodell des Sprechtrakts 



37 



werden und das Übertragungsverhalten nach Abschnitt 14.61 bestimmt wer- 
den. Bei mehrfach verzweigten Systemen, wie in [RaSL99] . wird das Verfah- 
ren iterativ angewendet; für zykUsche Systeme wird eine Matrix mit den Be- 
zugsgrößen der Knotenpunkte gebildet und gelöst — analog der bekannten 
Knoten-Maschen-Analyse linearer elektrischer Schaltungen. Eine Ubersicht 
gibt |Ra99] : die Parameterbestimmung gelingt mit Gradientenverfahren. 
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5 Mehrdimensionale Integration der Wellen- 
gleichung 

Wenngleich das Rohrmodell die Ausbreitung ebener Wellen exakt be- 
schreibt, hat sich bereits im vorangegangenen Abschnitt angedeutet, dass 
der Zerlegung der Sprechtraktakustik in Bereiche ebener Wellen Grenzen 
gesetzt sind. Diese werden in den nächsten Abschnitten näher betrachtet 
und der umgekehrte Weg untersucht, bei dem die Wellenausbreitung nur 
approximativ, dafür aber die dreidimensionale Geometrie exakt erfasst wird. 

5.1 Motivation 

In vielen Sprachen tritt die Lautklasse der Nasale (im Deutschen [m], 
[n], [r)]) häufig auf. Um deren Lautbildung zu verstehen und mittels eines 
akustisch motivierten Modells zu reproduzieren, ist eine genaue Kenntnis 
der Schallausbreitung im Nasaltrakt notwendig. Da die räumliche Konfigu- 
ration des Nasaltrakts im Gegensatz zu der des Vokaltrakts zeitlich konstant 
ist, kann sie mit vergleichsweise langwierigen medizinischen Untersuchungs- 
methoden ermittelt werden. Die räumliche Konfiguration ist damit drei- 
dimensional abbildenden Verfahren, wie Kernspin-Resonanz- Tomographie, 
Computer-Tomographien oder Kryo-Sektionen zugänglich, und es lassen sich 
die akustischen Eigenschaften mittels numerischer Verfahren daraus bestim- 
men. Schematisch ist der Nasaltrakt in Bild 15.11 dargestellt . er bildet die Ver- 
bindung des Rachens mit den Nasenlöchern. Der durch die durch die Nasen- 
scheidewand {Septum) längsgeteilte Verbindungsgang {Meatus nasi commu- 




Bild 5.1: Nasaltrakt und Nebenhöhlen 
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nis) wird durch jeweils drei muschelförmige Knorpel- bzw. Knocheneinbuch- 
tungen {Concha inferior, C. media und C. superior) verengt. Die Akustik 
des Nasaltrakts wird, wie bereits erwähnt durch mehrere Nebenhöhlen be- 
einflusst, die mit ihm über dünne Kanäle verbunden sind. 

Desweiteren ergeben sich auch in der Mundhöhle bei Frequenzen ab etwa 
4 kHz teils deutliche Abweichungen vom Modell der ebenen Welle, wie es 
ausführlich in |Mo02j erörtert wird: Man erkennt die starke Schrägstellung 
der Intensitäts-Isarithmen im Bereich der vorderen Mundhöhle, insbesondere 
deren Verwerfung bei den Lippen; auch die Ausbildung der Isarithmen am 
Gaumen lässt sich nicht mit dem Modell ebener Wellen beschreiben. Die 
gezeigte Simulation wird auch durch in |Mo02] zitierte Messungen belegt 
und deren Effekt auf die Resonanzeigenschaften quantifiziert. 



5.2 Die Wellengleichung 

Für die folgende grundlegende Evaluierung wird die Schallausbreitung 
in ihrer einfachsten Form betrachtet, der akustischen Wellengleichung. Wär- 
meleitung wird zunächst außer Acht gelassen, so dass eine adiabatische Zu- 
standsänderung erfolgt; ebenso bleiben Reibungen unberücksichtigt und die 
Betrachtung beschränkt sich auf Terme erste Ordnung. 

Ausgehend von der 1. Akustischen Grundgleichung 

du 

welche beinhaltet, dass ein Druckgradient ein Medium beschleunigt, und 
der 2. Akustischen Grundgleichung, der Kombination aus Kontinuitäts- und 
linearisierter Adiabatengleichung, 

^ '^dp 

Kp dt 

ergibt sich die akustische Wellengleichung 

p d^p 



Ap 



Kp 



Öt2 



Dabei ist k der Adiabatenkoeffizient, p die mittlere Dichte und p der mittlere 
Druck sowie ^ = das Quadrat der Schallgeschwindigkeit in Luft, u, p 
und t symbolisieren wie in den letzten Abschnitten den Fluss, den Druck 
und die Zeit. 

Die analytische Lösung der Wellengleichung ist nur für bestimmte einfa- 
che Randbedingungen möglich, wie für quader-, kugel- oder zylinderförmige 
Hohlräume. Für die komplizierteren Geometrien des Sprechtrakts werden 
deshalb numerische Verfahren eingesetzt. 

Die Betrachtungen der numerischen Verfahren in den folgenden Ab- 
schnitten I5.3ti5.7l vereinfachen sich, wenn man die Bezugsgröße p durch die 
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Abbildung — t- 1 in eine dimensionslose Form $ bringt. Auf die Ein- 
führung neuer Symbole für die dimensionslose, normierte Zeit und den di- 
mensionslosen, normierten Raum wird dabei verzichtet, da die Symbolik im 
Kontext eindeutig ist. Die Wellengleichung hat nun die Form: 



5.3 Räumliche Diskretisierung 

Abhängig von den Randbedingungen ist die numerische Lösung der Wel- 
lengleichung mit vielen Verfahren möglich, |Sc93| IOe951 IMe08| ILeSWOQ] ge- 
ben einen Uberblick. Diese Verfahren führen eine Diskretisierung des Raums 
oder seiner Oberflächen ein, sowie eine Diskretisierung der Zeit- oder Fre- 
quenzkoordinate. Einige dieser Verfahren sind bereits in Abschnitt 13.41 ge- 
nannt und in einigen Aspekten diskutiert worden. Das Ziel der folgenden 
Betrachtung ist es, ein möglichst gut handhabbares Verfahren zur Untersu- 
chung der Sprechtraktakustik zu ermitteln. Wenngleich kein strenges Maß, 
setzt sich die Handhabbarkeit hierbei aus dem Aufwand für Implementie- 
rung, dem Laufzeitverhalten, einer evtl. erforderliche Aufbereitung von Un- 
tersuchungsdaten und aus der zu erwartende Genauigkeit zusammen. 

Waveguide-Mesh 

Der naheliegende Weg, das erfolgreiche Rohrmodell zur Beschreibung 
der Ausbreitung ebener Wellen auf drei Dimensionen zu erweitern, also bei- 
spielsweise ein kubisches Gitter aus uniformen Rohrelementen zu bilden, die 
an den Knotenstellen mit 6-Tor-Adaptoren verbunden sind, führt zu dem 
Waveguide-Mesh. Bild l5.2l (c) zeigt ein zweidimensionales Abbild dieses Net- 
zes unter Berücksichtigung einer einfachen Randstruktur. 

Die bereits genannte unzutreffende, inhärente Anisotropie der Wellen- 
ausbreitung schließt dieses Verfahren für eine quantitative Untersuchung 
der Akustik aus. Um diese Anisotropie zu vermeiden, könnte man unter 
Beibehaltung der Einheitskantenlänge nun versuchen, das Netz feiner und 
makroskopisch isotrop zu gestalten. Der hierfür erforderliche Netzgenerator 
scheint aber nicht wesentlich einfacher als ein Netzgenerator zur Unterglie- 
derung in Finite Elemente zu sein, das Laufzeitverhalten durch das feinere 
Netz aber deutlich schlechter. 

Finite-Elemente-Methode 

Der Raum wird bei dieser Vorgehensweise in endliche viele Elemente 
untergliedert, bspw. Tetraeder. Deren Abmessungen sind im Allgemeinen 
unterschiedlich und der Randbedingung angepasst. Auf dem Volumen jedes 
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(a) Unstrukturiertes Netz (c) Kartesisches Netz 



Bild 5.2: Netze verschiedener Diskretisierungsmethoden 

Tetraeders wird die Zustandsgröße durch eine möglichst einfache Formfunk- 
tion angenähert. Zwischen angrenzenden Tetraedern wird dann eine Stetig- 
keit der Formfunktion durch Gleichheit der Eckwerte und je nach verwen- 
deter Formfunktion weiteren Werten gefordert. Ein an Randbedingungen 
angepasstes, unstrukturiertes Netz der Finiten-Elemente ist in Bild 15.21 (a) 
gezeigt. 

Der wesentliche Vorteil der Elemente Methode ist, dass das Netz für 
filigrane Randstrukturen verfeinert werden kann, während es bspw. im Zen- 
trum von Hohlräumen grob, mit wenig Elemente ausgeführt wird. Auf diese 
Weise kann die Anzahl der Elemente bei bestimmten Aufgabenstellungen 
deutlich reduziert werden, und die algorithmische höhere Komplexität pro 
Element rentiert sich. Jedoch sollten die Tetraeder gewissen Kriterien genü- 
gen, bspw. dem von Delauny in |De34| . um den Raum hinreichend homogen 
abzudecken, was Algorithmen für die automatische Generierung der Tetra- 
edernetze aufwendig macht: Eine automatische Erzeugung ist bisher nur für 
einen Vokaltrakt mit einer stark vereinfachten elliptischen Kontur gezeigt 
worden. Zudem ist bei den hier zu betrachtenden Untersuchungsdaten der 
Rand nicht unmittelbar in den Datensätzen enthalten, sondern müsste aus 
räumlich variierenden Volumendichten abgeleitet werden. Letztlich bleibt 
auch fraglich, ob der genannte Vorteil der Finiten Elemente greift, da gerade 
der Nasaltrakt eine Vielzahl filigraner Strukturen aufweist — insbesondere, 
wenn man eine physikalische treffende, dünne Randschicht mit Dämpfung 
vorsehen möchte, die mit groben Elementen nicht erfasst werden können. 
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Finite-DifFerenzen-Methode 

Bei der Finite-Differenzen-Methode legt man in das das Volumen ein 
kubisches Gitternetz der Weite h. Man approximiert die partiellen Differen- 
tialgleichungen durch Differenzengleichungen, welche auf den an den Git- 
terpunkten definierten Zustandsgrößen basieren. Im einfachsten Fall wird 
aus 



für zweite Ableitungen, wie sie bei der Wellen-Differentialgleichung vorkom- 
men. Dabei ist ^ ein normierter Basisvektor des betrachteten Raums. Auf 
das Verfahren wird unter [531 genauer eingegangen. 

Man erhält ein kartesisches Netz, Bild 15.21 (c), dessen Gitterweite sich 
an quaderförmige, vorzugsweise kubische Volumenelemente der tomographi- 
schen Datensätze anpassen lässt. Die Datensätze können damit direkt über- 
nommen werden. Um wesentliche Anatomische Details zu erfassen, weisen 
diese Datensätze eine räumliche Auflösung von 1 mm und darunter auf. Die- 
se Auflösung ist deutlich kleiner als die Schallwellenlänge von 4 cm bei der 
höchsten betrachteten Frequenz 8 kHz. Es ist somit naheliegend, dass die 
Differenzenapproximation der partiellen Differentialgleichung einen geringen 
Fehler aufweist — und es bestätigt sich bei der eingehenden Betrachtung in 
den folgenden Abschnitten: Anisotropie, Dispersion und eine Skalierungsab- 
hängigkeit können vernachlässigt werden. Darüber hinaus erlaubt die ver- 
gleichsweise feine Diskretisierung eine Reihe von Anpassungen, die treffend 
akustisch relevante Effekte erfassen, wie sich im Weiteren zeigt. Vorteilhaft 
sind weiterhin die einfache Implementierung und der geringe Berechnungs- 
aufwand einer einzelnen Differenzen-Approximation. 

Weitere Methoden 

Es gibt eine Vielzahl weiterer Verfahren. Diese weisen jedoch meist an- 
dere Zielrichtungen auf, wie bspw. die Boundary Element Methode und die 
Source-Simulation-Technique, sind aufwendig zu implementieren, wie die 
Spektral- Element- Methode und die Pseudospektral-Methode, oder haben kei- 
nen offensichtlichen Vorteil für die hier untersuchte Aufgabenstellung, wie 
die Finite-Volumen Methode mit der Netzstruktur (b) in Bild 15. 2( weshalb 
diese Verfahren nicht weiter betrachtet werden. 




^>(x + h^) - ^>(x - h$) 
2h 



und aus 




$(x h$) - 2^>(x) + ^>(x - h$) 
1? 
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5.4 Betrachtung im Frequenzbereich 

Für zeitlich unveränderliche, stationäre Randbedingungen ist eine zeit- 
liche und räumliche Separation der Differentialgleichung möglich. Diese Be- 
dingungen sind im Nasaltrakt und genähert in der Mundhöhle bei bestimm- 
ten Lauten erfüllt. Hier kann dann eine direkte Berechnung im Frequenzbe- 
reich mit dem harmonischen Ansatz 



erfolgen. Setzt man diese in die akustische Wellengleichung ein, so erhält 
man die Helmholtzgleichung 



Das damit und durch die räumliche Diskretisierung entstehende Gleichungs- 
system kann dann entweder direkt oder durch iterative Algorithmen, wie 
Relaxation, gelöst werden. 

Alternativ besteht auch die Möglichkeit, die im vorhergehenden Ab- 
schnitt gefundenen Differenzenoperatoren als zeitdiskretes Filter zu betrach- 
ten, ähnlich den Rohrsegmenten aus Abschnitt Hl Das Ubertragungsverhal- 
ten ergibt sich dann durch die Kopplung dieser Filter entsprechend der räum- 
lichen Diskretisierung. Der Unterschied zwischen diesen, von den Finiten- 
Differenzen abgeleiteten Filtern und den Kreuzgliedkettenfiltern liegt letzt- 
lich nur in den betrachteten Größen. Erstere betrachten Wellengrößen, wel- 
che aus der D'Alembert'schen Lösung der Wellengleichung resultieren, letz- 
tere erfassen die Wellengleichung direkt. Unterschiede und Gemeinsamkeiten 
werden anhand eines Beispiels in Abschnitt [T2] nochmals verdeutlicht und 
dort zur Verifizierung genutzt. 

Damit das Simulationssystem nicht auf statische Vokaltraktkonfigura- 
tionen beschränkt bleibt, wird auf diese zeitliche Separation verzichtet. Die 
Rechenzeit der direkten Simulation ist, insbesondere nach den in Abschnitt 
E3] vorgestellten und vorgenommenen Optimierungen, ausreichend kurz. Die 
unterschiedlichen Sichtweisen helfen jedoch beispielsweise, die in den Ab- 
schnitten [7] und [TU betrachteten Erweiterungen zu entwickeln. 

5.5 Integration in Zeitrichtung 

Ist diese Separation des zeitabhängigen Teils der Lösung nicht möglich 
oder nicht praktikabel, gibt es nach |Oe95] eine Reihe numerischer Methoden 
um die Lösung zeitschrittweise zu bestimmen, die folgend kurz zusammen- 
gefasst sind. 



P — Px,y,z C 
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Die Idee des Euler- Verfahrens ist, aus der Tangentensteigung den näch- 
sten Funktionswert zu ermitteln: 

9$ ^ A$ j^t+i =^t+ Atf{^t) explizit, 

dt At \^t+i = ^tf{^t+i) implizit. 

Bei der impliziten Methode lässt sich ^t+i nur durch Lösen eines Gleichungs- 
systems bestimmen. Dies bedeutet einen erheblichen Mehraufwand. Jedoch 
führt das Verfahren in jedem Fall zu einem stabilen System. Die Genauigkeit 
des Euler- Verfahrens kann erhöht werden, indem zwischen den Stützstellen 
die Ableitung bestimmt wird: 

Dieses nach Crank-Nicolson benannte Verfahren ist ebenfalls implizit, folg- 
lich numerisch stabil und rechenaufwendig. Der numerische Aufwand der 
impliziten Verfahren kann mit der Prädiktor-Korrektor-Methode gemindert 
werden, indem ^[j^i durch das explizite Euler- Verfahren in einem Prädik- 
tionsschritt vorausgesagt und danach in einem Korrekturschritt ähnlich dem 
Crank-Nicolson- Verfahren genauer bestimmt wird: 

$i+l = cI>, + ^(/(cI>,)+/(cI>;^,)). 

Es zeigt sich jedoch, dass aufgrund der feinen Diskretisierung der Raum- 
koordinaten für die Integration in Zeitrichtung bereits das einfache Euler- 
Verfahren hinreichend genau ist. Insbesondere verdeutlichen die am Ende des 
Abschnitts 15.61 dargestellte Dispersionsrelationen, dass der höhere Aufwand 
zur Berechnung durch die anderen genannten Verfahren für die Untersu- 
chungen in dieser Arbeit nicht gerechtfertigt ist. 

5.6 Finite-Differenzen-Methode im Zeitbereich 

In diesem Abschnitt werden die Eigenschaften der Finite-Differenzen- 
Methode im Zeitbereich eingehend betrachtet. Hierfür werden zunächst Dif- 
ferenzen-Operatoren verschiedener Ordnungen entwickelt und hinsichtlich 
ihrer Stabilität für ein Euler- Verfahren zur zeitlichen Integration analysiert. 
Abschließend wird für diese Operatoren der Finiten Differenzen-Methode die 
Abweichung zur Lösung der partiellen Differentialgleichung untersucht. Für 
eine kompakte Darstellung des Weges wird dabei ein kubisches Diskretisie- 
rungsgitter zugrunde gelegt, bei dem Aufgrund der hohen Symmetrie nur 
wenige Fälle betrachtet werden müssen. 

Um den Laplaceoperator A$ = -|- -|- der Wellengleichung zu 
approximieren, führt man eine Taylorentwicklung der Funktion <I> aus. Im 
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Folgenden ist sie dargestellt bis zur 4. Ordnung: 



$ h $ + h^— + hy— + h,— 

ox Oy oz 



1/2^ 2^ ,2^^^\ 

, , , , , , 92$ 

+ hxhy-^-^ + hyhz^-^ + h^hz^-^ 
oxoy oyoz oxoz 

+ 6 (''9^ + 9^ + 9i^ j + '^'^'^9^ 

1 ,2 , ,2 ,2, \ 

+ 2 l,'^^'^-9^ + ^^^^9^ + ^^^^^9^ J 
1 (,,d^^ ,.94$ .494$A 



+ ^ K—r + K—r + h 



24 \^ ^9x4 ?'9y4 '"'^ 9^^ J 
+ 6 [ ^dx^dy + ^ ^9y39z + "^9x9^3 ) 

+ 77 KK——; + hyhi——. + /l^/l. 



6 \^ s'9,T9y3 ^"2'"^9y9z3 ^ ^ ' dx^dz j 

1 /^r,2^2 „^2 x,2x,2 



4 \^ ^ ^9x29y2 -^y^^dy^dz^ ^ ^ dx'^dz'^ ) 

1/2 9*^$ 2 ö''^ 2 

+ 2 [^-^y^'d^^d^ + ^"^2'^"9x9y29z + ^"''^^^9x9y9z2 



Man wählt ein Gitter mit der Weite h = 1, und bestimmt die benachbarten 
Werte, indem ihre Koordinaten in die Taylorreihe eingesetzt werden. Dabei 
ist es zweckmäßig, symmetrisch angeordnete Punkte zusammenzufassen. 
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Bild 5.3: Gitterausschnitt 

Betrachtet man den in Bild 15.31 abgebildeten Gitter ausschnitt, mit dem 
zentralen Punkt (quadratisch markiert) 

^Zentrum = ^ , 

SO ergibt sich für die Eckpunkte 

^Ecke = -D'^'^ + 2D^^'^ + 4L>2^> + 8^> , 
3 

für die Kantenpunkte 

^Kante = \d^^ + D^H + 4D^^ + 12$ , 

für die Flächenpunkte 

^Fläche = ^D"^^ + + 6$ , 

und für die entfernteren flächenzentrierten Punkte 

^Fläche2 = ^D^^ + 4DH + 6<^ . 

Dabei haben die Differentialoperatoren die Form: 

ßZ Ql Ql 
D = r H r H r , 

9a;* dy^ dz^ 

ß2i ß2i a2i 



dy^dz^ dx'^dz'^ 9x*9y* 
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Die einfachste Möghchkeit, den Laplaceoperator, der in dieser Darstel- 
lung die Form hat, aus Linearkombinationen der Gitterpunkte zu bilden, 
ist: 

« ^Fläche — Zentrum- 

Der verbleibende Fehler j^-D^ ist vierter Ordnung. Er kann durch Hinzufü- 
gen von Eck- und Kantenpunkten nicht eliminiert werden, da diese von den 
Flächen- und Zentrumspunkten linear abhängig sind. Eine bessere Approxi- 
mation erhält man durch Berücksichtigung der Flächen zweiter Ordnung: 

~ —^Fläche2 + ^Q^Fläche — ^O^Zentrum 

womit Fehler sechster Ordnung bleiben. Es verbleiben somit die zwei im letz- 
ten Abschnitt gefundenen Operatoren der Differenzen-Methode, dargestellt 
als Iterationsgleichung: 

^t+l,x,y,z = K{^t,x+l,y,z + ^t,x,y+l,z + ^t,x,y,z+l 
+ ^t,x-l,y,z + ^t,x,y-l,z + ^t,x,y,z-l) 
- '^t-l,x,y,z - {QK- 2)<^t,x,y,z, 

der 9-Punkt Operator, und 

^t+2,x,y,z = K{^t,x+2,y,z + ^t,x,y+2,z + ^t,x,y,z+2 
+ ^t,x-2,y,z + ^t,x,y-2,z + ^t,x,y,z~2) 
-16K{^t,x+l,y,z + ^t,x,y+l,z + ^t,x,y,z+l 
+^t,x-l,y,z + ^t,x,y-l,z + ^t,x,y,z-l) 
+ 16{^t-l,x,y,z + ^t+l,x,y,z) — ^t-2,x,y,z 
+ {90K- m'^t,x,y,z, 

der 17-Punkt Operator.!^ Letzterer benötigt den doppelten Rechenaufwand 
und hat, da die Zeitebenen t + 2 und t — 2 berücksichtigt werden müssen, 
den doppelten Speicherbedarf. 

Für die Zeitdiskretisierung wird das explizite Euler- Verfahren eingesetzt. 
Hierfür wurden bereits in |I CoFL28] Stabilitätskriterien gefunden, unter an- 
derem durch eine Kausalitätsbetrachtung: Zur Berechnung des zentralen 
Elements muss der Zeitschritt so klein gewählt werden, dass es vom Schall 
eines azentralen Elementes des Operators bei der Schallgeschwindigkeit c 
innerhalb von At erreicht werden kann. Eine kompaktere Darstellung findet 
sich in |LiSB98] mit dem Kriterium: 

At 



27. Die Operatoren lassen sich mit K — ^ noch weiter vereinfachen, da dann die Koef- 
fizienten 6K— 2 bzw. 90K— 30 gleich null sind, der Term ^t,x,y.z entfällt. Die Berechnung 
kann dann im Fall des 9-Punkt-Operators zeitlich alternierend auf jeden zweiten Gitter- 
punkt beschränkt werden, also beispielsweise für {t + x + y + z) mod 2 = 0. 
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wobei ai die Summe aller KoefRzicntcnbeträge der Differenzenapproximati- 
on in Zeitrichtung und 02 in Raumrichtung ist. Diese sind für den 9-Punkt- 
Operator 4 bzw. 12K und somit folgt unter Berücksichtigung der Normie- 
rung c = h = At = 1: 




Das gleiche Ergebnis erzielt man mit dem 17-Punkt-Operator aufgrund von 
ai = 64 und 02 = 192K. 

Die Qualität der erhaltenen Lösungen misst man anhand von Disper- 
sion, Isotropie und Skalierungsunabhängigkeit. Da die erhaltenen Differen- 
zengleichungen wie die partiellen Differentialgleichungen linear sind, genügt 
es, hierfür die Dispersionsrelation (p{k) zu betrachten. Die Anisotropie kann 
hierbei durch den Vergleich verschieden gerichteter Wellenvcktoren ermittelt 
werden. Sinnvollerweise wählt man dazu die Extremalwerte, die Wellenaus- 
breitung entlang einer Gitterachse und die Wellenausbreitung entlang einer 
Raumdiagonale . 

Zunächst wird die Wellenausbreitung entlang einer Gitterachse betrach- 
tet. Hier führt der Ansatz einer ebenen Welle mit der Wellenzahl k = 2-kX~^, 



in den 9-Punkt Operator (ipa) und in den 17-Punkt Operator {(pa) einge- 
setzt, zu: 



Eine in Richtung einer Raumdiagonale fortschreitende ebene Welle, die 
durch den Ansatz 



$ = sin{(pAt + kx), 



cos (fa = l + K [cos(A;) — 1] 



cos (fA = 4: - J9 + K [cos2(A:) - 8 cos(7rA:) + 7] . 





beschrieben wird, ergibt in die Operatoren eingesetzt 




und 




Es ergibt sich ein interessanter Spezialfall, falls K = gewählt wird. Die 
beiden Gleichungen vereinfachen sich dann zu 



k 
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Bild 5.4: Dispersionsrelation des 9- und 17-Punkt Operators mit K = ^ 

einer proportionalen Beziehung zwischen Wellenzahl und Phasengeschwin- 
digkeit. Es tritt keine Dispersion auf. 

Man erkennt in Bild 15.41 im Bereich niedriger Frequenzen, k < ^ sowohl 
für den 17-Punkt Operator, und ipA, als auch für den 9-Punkt Ope- 
rator, ipr und (fa einen proportionalen Verlauf der Dispersionsrelation: die 
auftretende Dispersion ist gering. Eine Anisotropie, in dem Diagramm als 
„Aufspaltung" der Funktionenschar zu sehen, tritt ebenfalls erst bei höheren 
Frequenzen auf. 

Für den hörbaren Frequenzbereich k < ^ ergibt sich, dass die numerisch 
hervorgerufenen Fehler sehr gering sind. Insbesondere zeigt sich, dass der 9- 
Punkt Operator hinreichend genau ist. Der Mehraufwand für den 17-Punkt 
Operator ist nicht gerechtfertigt. 

Ein weiterer wichtiger Punkt ist die Vermeidung von Aliasing- Artefakten. 
Diese können durch die unterschiedlichen räumlichen Auflösungen hervor- 
gerufen werden. Eine Möglichkeit besteht in der Bandbreitenbeschränkung 
der Anregung auf Wellenzahl kleiner ^, eine andere in der Bandbreitenbe- 
schränkung der Ergebnisse auf Wellenzahlen kleiner (2 — V^)'ir; beide werden 
genutzt. 
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5.7 Randbedingungen 

Während im letzten Abschnitt die Differentialgleichung im allgemeinen 
betrachtet wurde, sind für eine konkrete Problemstellung die Randbedingun- 
gen wichtig, unter denen sie zu lösen ist. Bekanntlich werden verschiedene 
Arten von Randbedingungen unterschieden, die folgend im Hinblick auf die 
akustische Beschreibung des Vokaltrakts mit Finiten Differenzen erörtert 
werden. Diese Randbedingung bilden den Ausgangspunkt der Beschreibung 
des Vokaltrakts und werden im Laufe der Arbeit weiter an Erfordernisse des 
Sprechtrakts bzw. dessen Datensätze angepasst. 

Bei einem schall weichen Abschluss, der in guter Näherung die Schall- 
abstrahlung von der Querschnittsfläche des Mundes oder der Nasenlöcher 
beschreibt, ist der Schalldruck gleich Null, vgl. Abschnitt 14.51 Dieser Ab- 
schluss kann mit ip = durch Dirichlet- Randbedingung realisiert werden, 
die einen Funktionswert ip auf dem Rand R festlegen: 

Um diese Randbedingung im Kontext der Differenzenmethode zu formulie- 
ren, wird für den Differenzen-Operator exemplarisch ein Rand in positiver 
x-Richtung betrachtet, in der Mitte zwischen der beliebigen Position x und 
der und eins verschobenen Position x + 1. Eine zweidimensionale Darstellung 
genügt: In Bild 15.51 soll das rechte Teilgebiet dem Rand zugehören und an 
dem ausgezeichneten Punkt die Randbedingung erfüllen. Durch eine Linea- 
risierung des Funktionsverlauf von dem zentralen Punkt des Operators 
über den Rand hinaus zu der nächsten Operatorstützstelle ^x+i erhält man: 

+ <^x+l ^ ^ ^ 
^ = f ^x+l =2(p-^x ■ 

Mit (/9 = wird zur Festlegung eines schallweichen Randes die rechte Be- 
ziehung, ^x+i = —^x, in die 9-Punkt-Operatorgleichung aus Abschnitt 15.61 
eingesetzt. 

Senkrecht zu den schallharten Wänden des Vokaltrakts findet kein Schall- 
fluss statt und die Ableitung des Schalldrucks ist in diese Richtung an den 
Wänden folglich gleich null. Dies wird durch Neumann- Randbedingung be- 
schrieben, die am Rand den Wert 7 der Ableitung entlang der Normale riß 
des Randes festlegen: 

^ — = ■ 

OUR 

Der Funktionsverlauf wird wiederum linearisiert und die Ableitung senk- 
recht zum Rand durch eine Differenz approximiert. Ein Vergleich mit Bild l5.5l 
zeigt, dass sich der Rand im Zentrum der Differenzenapproximation befin- 
det. Folglich erhält man ohne weitere Schritte die Beziehung: 



^x - = 7 



+ , 
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Bild 5.5: Zweidimensionales Schema des Finite-Diffcrenzen-Operators im Rand- 
bereich. Dicke Linien verdeutHchen die Struktur des Operators, dünne Linien die 
Ränder der Diskretisierung eines Ausschnitts des zugrunde Hegenden Datensatzes. 
Kreise heben die zentrale Lage der Bezugsgröße des Operators in der Diskretisie- 
rung des Datensatzes hervor. Der jenseits des Randes liegende Bereich ist grau 
dargestellt; der ausgefüllt hervorgehobene Kreis zeigt die Lage des Randwertes (pn 
und der Pfeil die Flächennormale riß des Randes. 

die zur Modellierung einer schallharten Fläche mit 7 = in den 9-Punkt- 
Operator eingesetzt wird. 

Anhand von Korrelationsanalysen, wie sie beispielsweise Bild 13.51 zu- 
grunde liegen, erkennt man, dass an der Glottisposition nur eine kleine Ein- 
schnürung des Vokaltrakts auftritt. Der dahinter liegende glottisseitige Ab- 
schluss des Vokaltrakts wird deshalb meistens reflexionsfrei modelliert, da 
die Schallwellen auch im weiteren subglottalen Bereich wenige Rückreflexio- 
nen erfahren. Ein reflexionsfreier Abschluss ist auch hilfreich zur separaten 
akustischen Analyse von Teilbereichen, wie dem Nasaltrakt: Hierfür wird die 
Offnungsfläche des Velums mit diesen nicht reflektierenden Randbedingung 
versehen. |Sc99j schlägt zur Beschreibung eines reflexionsfreien Abschlusses 
die Beziehung 

vor. Diese Beziehung unterdrückt Reflexionen von Schallwellen, indem sie 
nur eine Teilmenge der D'Alambertschen Lösungen der Wellengleichung zu- 
lässt, nämlich die Wellenausbreitung in positive x-Richtung, ^x-t- Rückre- 
flektierte Wellen mit umgekehrter Ausbreitungsrichtung, ^x+t, sind durch 
diese Randbedingung nicht mehr möglich. Diese Beziehung liefert für einen 
eindimensionale Formulierung der Finiten Differenzen eine exakte Randbe- 
dingung, ist jedoch aufgrund der Verwendung des D'Alambertschen Inte- 
gration nicht (oder nur approximativ) auf eine mehrdimensionale Formulie- 
rung übertragbar. Mit einem allgemeineren Ansatz wird eine für eine drei- 
dimensionale Formulierung besser geeignete Beschreibung in Abschnitt [TU 
entwickelt. 
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Teil II 

Akustik des Nasaltrakts 

In diesem Teil der Arbeit wird die Extraktion der Akustik des Nasal- 
trakts aus seiner räumlichen Gestalt gezeigt. Hierfür werden zunächst ver- 
schiedene tomographische Verfahren zur Bestimmung der räumlichen Ge- 
stalt des Nasaltrakts evaluiert. Diese Verfahren liefern eine Abfolge zweidi- 
mensionaler Schichtbilder, in denen eine Dichte kodiert ist. Es zeigt sich, dass 
diese Dichteverteilung eines Verfahrens präzisen Aufschluss über die Gestalt 
der Hohlräume des Nasaltrakts gibt. Jedoch ist auch bei diesem Verfahren ei- 
ne räumliche Auflösung bestimmter, wesentlicher Details nicht möglich. Um 
trotzdem quantitativ die Akustik berechnen zu können, wird die Formulie- 
rung der Finiten Differenzen erweitert, so dass die bestimmte mittlere Dich- 
te der einzelnen Raumbereiche einbezogen wird. Diese Formulierung wird in 
einem weiteren Schritt zur Berücksichtigung der im Nasaltrakt stark ausge- 
prägten Schalldämpfung durch Wechselwirkung mit den Hohlraumwänden 
ergänzt. Mit der erweiterten Formulierung der Finten Differenzen ist eine 
direkte Übernahme der tomographischen Daten möglich; die Bestimmung 
der Akustik erfolgt durch Lösung der Wcllcngleichung in einem optimier- 
ten Zeitschrittverfahren. Der Simulation wird ein speziell für diese Akustik 
entwickelte Messung gegenübergestellt. 

6 Tomographische Daten 

Die räumliche Gestalt des Nasaltrakts kann mit verschiedenen Verfahren 
bestimmt werden. Der Rückgriff auf eine publizierte, bestehenden Untersu- 
chung — auf diese wird in den folgendem Abschnitt eingegangen — zeigt, 
dass ein nicht an den Erfordernissen ausgerichtetes Verfahren zu erheblichen 
Unsicherheiten führen kann. Zu den wichtigsten Erfordernissen zählen 

- hohe räumliche Auflösung in allen drei Raumrichtungen, 

- hoher Kontrast zwischen Hohlraum und Gewebe, 

- geringe Artefakte und 

- geringe Belastung für die untersuchte Person. 

Die erste Eigenschaft ist zwingend erforderlich, um wesentliche Details des 
Nasaltrakts zu erfassen. Beispielsweise sind die Nasengänge durch Einbuch- 
tungen — wie später gezeigt wird — bcrcichswcise Weiten nur im Millimeter- 
bereich, in dem gleichen Bereich liegt der Durchmesser der Verbindunggän- 
ge zu den Nasenhöhlen. Ein hoher Kontrast erleichtert eine algorithmische 
Aufbereitung der Untersuchung, insbesondere die Verwendung von Schwell- 
werten zur Klassifikation von Hohlräumen und eine geringe Belastung für 
die untersuchte Person erleichtert die Handhabung des Verfahrens. 
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Neben der ursprünglich verwendeten Kryosektion werden zwei weitere, 
auf gänzlich unterschiedlich physikalischen Prinzipien beruhende tomogra- 
phische Verfahren aus der medizinischen Diagnostik betrachtet. Diese beiden 
Verfahren, die Kernspinresonanz- Tomographie und die Röntgenabsorption- 
Tomographie, werden hinsichtlich der genannten Erfordernisse verglichen. 

6.1 Kryosektion 

Die in [Ra99j verwendeten Datensätze des Visual Human-Piojektes, die 
in |PeBB98] verfügbar sind, stammen von aus optisch, mittels Scanner abge- 
tasteten Kryosektionen. In der Ebene des Scanners wird eine Auflösung von 
0,33 mm erreicht. Die räumliche Auflösung der Kryosektionen ist entlang de- 
ren Schichtung mit 1 mm deutlich gröber. [fl Durch eine Unterabtastung in 
der Scanner-Ebene wird eine einheitliche Auflösung von 1 mm in alle Raum- 
richtung hergestellt. Jedoch führt der Kryo-Prozess mit der nachfolgenden 
Präparation, zu einer Reihe von Artefakten: die Nasengänge treten beispiels- 
weise nicht hervor, Hohlräume sind teils mit einer blauen Substanz gefüllt, 
teilweise schwarz. Deshalb erfolgt die Separation von Gewebe und Hohlräu- 
men anhand der Bilddaten halbautomatische gefolgt von einer Berichtigung 
durch einen Facharzt für HNO-Medizin anhand seiner Erfahrungen, vgl. 
S. 11331 Bild 16.11 illustriert diesen Prozess. 




Bild 6.1: Übergang von Kryosektionen, links, zum Volumendatensatz, rechts: 
Durch eine Unterabtastung werden die Daten auf ein kubisches Gitter der Kan- 
tenlänge 1 mm gebracht, wie an der gröberen Randstruktur zu erkennen ist. Die 
weiß dargestellten Hohlräume sind halbautomatisch klassifiziert. 



28. Ein zweiter Datensatz des Visual-Human-Projects hat eine gleiche feine Auflösung 
in allen drei Raumrichtungen. Aber auch bei diesem sind erhebliche, präparationsbedingte 
Artefakte vorhanden. 
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6.2 Magnetresonanztomographie 

Die Magnetresonanz- oder Kernspintomographie ist ein Verfahren, in 
dem Atomkerne, hier Wasserstoffkerne räumHch aufgelöst in ihrer Konzen- 
tration dargestellt werden. Die Wasserstoffkerne werden hierfür in einem 
starken äußeren Magnetfeld mittels einer elektromagnetischen Welle in einer 
zu der Magnetfeldstärke passenden Frequenz ausgerichtet und die durch ihre 
Relaxation entstehenden Radiowellen erfasst. Mittels eines dem Magnetfeld 
überlagerten Gradienten wird das Verfahren ortsauflösend; die Tomogra- 
phien entstehen durch wiederholte Messung bei verschobenen Gradienten, 
vgl. bspw. |BrS10| . Während das die Hohlräume umgebende Gewebe zu ei- 
nem Großteil aus Wasser besteht und ein entsprechend starkes Signal liefert, 
emittiert die Luft in den Hohlräume praktisch keine Signal. 

Da das Verfahren ungefährlich, aufgrund des langen regungslosen Verhar- 
rens in einer engen Röhre aber wenig angenehm ist, hat der Autor sich dieser 
Untersuchung selbst unterzogen. Die Untersuchung an einem MRT-System 
des Universitätsklinikums Frankfurt mit 1,5 Tesla Feldstärke dauert etwa 
zwei Stunden. Die Aufnahmen geben jedoch die Strukturen des Nasaltrakts 
nur ungenügend wieder, wie in Bild 16.21 gezeigt, was eine Auswertung nicht 
mehr sinnvoll erscheinen lässt. Jedoch sind mittlerweile Geräte mit höhe- 
rer Feldstärke in Deutschland im Forschungseinsatz, wie bspw. jMPI07] und 
[Jü09| zeigen, die genauere Untersuchungen ermöglichen. Mit zunehmender 




Bild 6.2: MRT-Sagitalschnitt, nahe der Medianebene: Die Abgrenzungen der Sieb- 
beinzellen, Bildmitte halbrechts, die aus dünnen Knochen und Schleimhäuten ge- 
bildet wird, wird nicht deutlich. 
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Feldstärke sind jedoch auch hier Artefakte zu befürchten, was nach [GrS06] 
den Vorteil der höheren Feldstärke relativiert. Eine Alternative oder Er- 
gänzung besteht in der Verwendung von Tieftemperaturspulen nach |Ba08] 
zur Signalerfassung, sobald diese im humanmedizinischen Bereich verfügbar 
sind. Dabei wird das thermische Rauschen des ohmschen Spulenwiderstandes 
und der Verstärkungselektronik durch eine herabgesetzte Betriebstempera- 
tur verringert. Weitere Alternativen sind Multi-Channel- Verfahren, wie in 
|B104| gezeigt. Ebenfalls interessant könnte die in |Eb96| beschriebene Sub- 
stitution des Stickstoffs in der Atemluft durch hyperpolarisiertes Helium-3 
zur Kontraststeigerung der Hohlräume sein. Sobald eines oder eine Kom- 
bination dieser Verfahren zur Verfügung stehen, kann die MRT vorteilhaft 
verwendet werden. 

6.3 Computertomographie 

Eine Computertomographie zeichnet die Röntgenabsorption ortsaufge- 
löst auf, Bild 16.31 zeigt ein Beispiel. Die Messungen der Röntgenabsorption 
erfolgen entlang verschiedener Geraden, was die räumliche Zuordnung der 
Absorption an den Schnittpunkten der Geraden ermöglicht. Die zugrunde- 
liegende Berechnung, die Radon- Transformation |Ral7] . welche zu den To- 
mographien führt, und die Untersuchungsergebnisse für einige Gewebetypen 
werden ausführlich beispielsweise in |Hs03] und in |Le04] beschrieben. Der 
Absorptionsgrad oder — im medizinischen Sprachgebrauch — die Röntgen- 
dichte wird dabei in der Einheit Hounsfield angegeben, abgekürzt HE oder 
auch HU für Hounsfield Unit. Die Skala wird durch den Wert von Luft auf 
-1000 HE und Wasser auf HE definiert. 

Durch den Einsatz ionisierender Strahlung ist die Methode nicht unge- 
fährlich, ihr Risiko wird in |ICRPOO] diskutiert: Die Strahlenbelastung für 
die untersuchte Person ist prinzipbedingt um ein Vielfaches höher als bei 
einer Röntgenaufnahme. In Absprache mit dem Universitätsklinikum Frank- 
furt wurden deshalb die Daten zusammen mit einer medizinisch indizierten 
Untersuchung und mit dem Einverständnis des Patienten erfasst. In diesem 
Bild ist der hohe Kontrast zwischen den Hohlräumen, welche schwarz dar- 
gestellt sind, und der Schleimhaut, grau, zu sehen; ebenfalls zu erkennen 
sind die scharfen Ränder zwischen diesen Gebieten. Von diesen Daten wur- 
de zunächst ein Volumendatensatz mit einer Auflösung von 0,5 mm in allen 
Raumrichtungen abgeleitet, bei dem Werte der Röntgenabsorption größer 
HE dem Gewebe zugeordnet wurden, während kleinere Werte als Hohl- 
raum klassifiziert wurden. Die sich so ergebende Oberfläche wurde zur visu- 
ellen Kontrolle dreidimensional dargestellt, Bild 16.41 zeigt eine Ansicht. Eine 
repräsentative Auswahl der zugrundeliegenden Computertomographien ist 
im Anhang, Abschnitt ??, abgebildet. 
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7 Partielle Volumen 

Trotz des verbesserten Datensatzes können bestimmte, wichtige Struk- 
turen mit dem beschriebenen Verfahren nicht quantitativ erfasst werden. 
Dazu gehören insbesondere die bereits erwähnten Querschnitte der Verbin- 
dungsgänge zwischen den Nasengängen und den Nasennebenhöhlen sowie 
in einigen Bereichen die Querschnitte der Nasengänge selbst. Die Verbin- 
dungsgänge haben einen Durchmesser von rund einem Millimeter, somit 
in der Größenordnung der Diskretisierung. Würde man eine Klassifizierung 
anhand eines Schwellwertes durchführen, sollten sich die resultierenden Dis- 
kretisierungsfehler zwar im Mittel ausgleichen und beispielsweise die aus 
dem Volumen der Verbindungsgänge bestimmten Helmholtzresonanzen (im 
Zusammenwirken mit den Nasennebenhöhlenvolumen) nicht verändern. Es 
kann jedoch zu diskretisierungsbedingten Eigenresonanzen in den Gängen 
kommen. Gravierender sind darüber hinaus aus dem gleichen Grund unzu- 




Bild 6.3: Computertomographie, frontaler Schnitt: Gut zu erkennen sind die 
schwarzen Hohlräume der Nasengänge und Nasennebenhöhlen, die sich von dem 
umliegenden dunkelgrauen Gewebe abheben. 
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Bild 6.4: CT-Daten: Oberflächendarstellung der nasalen Hohlräume. Die Stirnhöh- 
len sind oben zu erkennen, die Kieferhöhlen rechts und links. Weiß hervorgehoben 
ist ein Schnitt durch die vorderen Nasengänge. 

treffende Querschnitte in der Ankopplung der Verbindungsgänge, vgl. Ab- 
schnitt 14.41 da diese die Güte der Resonanz beeinflussen, oder im Extremfall 
ein Verschluss des Ganges durch eine ungünstige Lage im Diskretisierungs- 
raster. 

In diesem Abschnitt wird eine Methode entwickelt, die diese Artefakte 
beseitigt, indem weitere Informationen aus den CT-Daten genutzt werden. 
Hierbei wird ausgenutzt, dass die Computertomographie eine mittlere Dichte 
eines Volumenelements liefert. 

Der Nasaltrakt ist mit der Nasenschleimhaut ausgekleidet, die die Grenz- 
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Bild 7.1: Skalierter Ausschnitt aus den CT-Daten, Bild 16. 3L Mitte. Gezeigt ist der 
Nasengang, wobei -1000 HE schwarz und HE weiß dargestellt sind, die Zwischen- 
werte sind entsprechenden Grautönc zugeordnet. 



Schicht zwischen den Hohlräumen und dem umliegenden Gewebe bildet. Der 
Nasenschleimhaut kann in guter Näherung eine Röntgendichte von HE 
zugeordnet werden, da sie größtenteils aus Wasser besteht. Betrachtet man 
ein Volumenelement der Computertomographie an einem Ort x, welcher im 
Randbereich des Hohlraums und der Nasenschleimhaut sitzt, so kann nun für 
dieses Volumenelement anhand der gemessenen Röntgendichte /ix bestimmt 
werden, zu welchem Teil x 6S noch mit Luft erfüllt ist beziehungsweise wie 
viel von dem Volumen durch die Nasenschleimhaut eingenommen wird. Dies 
geschieht über einen linearisierten Ansatz, wobei //Luft = —1000 HE auf ein 
leeres Volumen und /twasser = HE ein vollständig gefülltes Volumen abge- 
bildet werden. Werte darüber und darunter werden der Überlegung entspre- 
chend begrenzt: 



1 , für /ix < /iLuft 

A'x A'Wasser r.. 

, für //Luft < /ix < /^Wa 

A'Luft /^Wasser 

, für /ix > /^Wasser ■ 



In Bild 17.11 ist ein Ausschnitt aus dem Bild 16.31 gezeigt, in dem diese Zuord- 
nung vorgenommen ist. 

Die je nach Grad der Füllung der Volumen geänderten akustischen Ei- 
genschaften lassen sich mit Finiten-Differenzen durch die Randbedingungen 
nach Abschnitt 15.71 nicht unmittelbar berücksichtigen. Hierfür müsste die 
räumliche Auflösung um die Quantisierung der CT, also um den Faktor 
1000, erhöht und der genaue Verlauf des Randes in der erhöhten Auflösung 
rekonstruiert werden. Dieser Umstand wird durch eine Anleihe aus dem 
Formalismus des Rohrmodells vermieden; es werden die mittleren Eigen- 
schaften eines Volumens in Form der akustischen Impedanz in die Differen- 
zengleichung übertragen. Der akustischen Impedanz Z"'^ des Volumens wird 
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Tabelle 7.1: Vier Zeitschrittc des Auftreffens eines normierten Druckimpulses auf 
einen Impedanzsprung, verdeutlicht durch eine dünne vertikale Trennlinie zwischen 
X und X + 1. Der Impedanzsprung ist durch den Reflexionfaktor r charakterisiert. 

analog zu Abschnitt 14.21 formuliert: 

Die teilgefüllten Volumen im Randbereich weisen eine erhöhte Impedanz 
auf; vollständig zur Nasenschleimhaut gehörende Volumen sind schallhart. 

Dieser in [RaL03a] entwickelte und untersuchte Formalismus wird im 
Folgenden eingehender betrachtet. Der Impedanzsprung an der Grenzschicht 
zweier Elemente kann nach Abschnitt 14.31 auch durch den Reflexionsfaktor 

yak yak 
_ ~ ^x+\ _ Xx — Xx+1 

Zf + Z-X^ ~ Xx + Xx+1 

beschrieben werden, konkretisiert für zwei nebeneinander liegende Volumen 
mit X = X und mit x = x + 1. In Tabelle 17.11 ist die Ausbreitung eines 
auf einen Impedanzsprung auftreffenden Druckimpulses notiert. Ein Ver- 
gleich der Zeitschritte ti und t2 mit den Koeffizienten eines eindimensionalen 
Differenzen-Operators 

Pt-i,x - '^Pt,x + Pt+l,x = Pt,x-1 + apt,x + ßPt,X+l 

ergibt 

a = —2 + r , ß = 1 — r . 

Aufgrund ihrer Ableitung aus dem Rohrmodell ist diese Erweiterung der 
Finiten Differenzen für transmittierte Wellen, wie sie in den bereits genann- 
ten rohrartigen Verbindungskanälen zwischen Nasengang und Nasenneben- 
höhlen auftreten, physikalisch zutreffend. Hier korrespondiert x direkt mit 
der Querschnittsflächeninhalt des Verbindungsrohrs, wie es sich auch in der 
Äquivalenzbetrachtung in Abschnitt [T2] zeigt. Die Reflexion einer Schallwelle 
an einem schallharten Rand, der willkürlich zwischen das Diskretisierungs- 
raster gelegt ist, wird ebenfalls zutreffend beschrieben: Untersucht werden 
für eine senkrecht auf den Rand auftreffende Welle zwei Fälle, Xa = 0, 2 
und Xfe = 0, 5, wobei die jeweils daneben liegenden Volumen links mit Luft, 
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X = 1, und rechts vollständig mit Wasser, x = Oi gefüllt sind. Die gewonne- 
ne Beschreibung des Randbereichs wird mit der exakten Lösungen der 
Wellengleichung des Randbereichs verglichen: 

H!^/bi^) = mit ra = 2/3, n = 1/3 , 

Eine geometrische Interpretation zeigt Bild I7.2[ Gleichung ergibt sich 
aus einer Betrachtung ebener Wellen nach den Abschnitten I4.m4.3l mit 
= öi/ai = ti2/i22) uiit der zugrundeliegenden Betriebskettenmatrix T, 
gebildet durch eine Abfolge von Impedanzsprung mit r^/bi einfacher Laufzeit 
und Impedanzsprung r = 1 für den schallharten Abschluss. Alle Ubertra- 
gungsfunktionen sind Allpässe mit Einheitsverstärkung und stimmen folglich 
im Betragsgang überein. Die Ubertragungsfunktionen sind im 2-Bereich de- 
finiert, dessen zugrundeliegende Zeitdiskretisierung gleich der Schallaufzeit 
für das Durchqueren zweier Volumenelemente ist. In Abbildung 17.31 werden 
die Gruppenlaufzeiten von und die reinen Laufzeiten verglichen. 
Es zeigt sich, dass die jeweiligen Abweichungen durch die hier vorgestellte 
Beschreibung des Randbereichs für den Frequenzbereich unter 50 kHz ge- 
ring und in dem für die Sprachakustik relevanten Frequenzbereich bis 8 kHz 
vernachlässigbar ist. 

Der dreidimensionale Differenzen-Operator wird auf dem gleichen Weg 
erstellt. Die Indizes bei r charakterisieren die Lage des Impedanzsprungs, 
wobei die tiefgestellten Indizes das Bezugselement spezifizieren und die hoch- 




Bild 7.2: Verlauf der Schallwellen an einem Volumenelenient mit gemittelter aku- 
stischer Impedanz, oben, und an einem scharfen Rand, unten. Die Zeitachse ist 
vertikal aufgetragen. 
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gestellten Indizes das Nachbarelement bezeichnen: 



Pt+l,x,y,z '^Pt,x,y,z ~\~ Pt—l,x,y,z 



= K 



(—P, _|_ 1 ^2;-l,y,2 , x,y- 

\ ^ ' ' x,y,z ~ ' x,y,z ~ ' x,y, 



,rX,y 
x+l,y,z 



.x,y-^,z _i_ „x,y,z+i I x,y,z 

„ r ~r ' x,y,z—l x,y,z 



-1 



)Pt,x,y,^ 



+ {l-rl%]tlPt,x+i,y,z + {l-r:. 



x,y,z )Pt,x-l,y,z 



+ 



(1 - r^4y'nPt,x,y+l,z + (1 - r-x:tz''^)Pt,x,y-l 



(1 



f.x,y,. 
x,yy 



^)Pt,x,y,z+l + (1 - rlf^l ^)Pt,x,y,z-l 



Er stellt eine Erweiterung der in Abschnitt 15.61 diskutierten Finiten Dif- 
ferenzen dar. Insbesondere bleiben durch die Erweiterung die dort gezeig- 
ten Stabilitätsüberlegungen unberührt und sind weiterhin gültig, da sowohl 
Schallgeschwindigkeit als auch rechts- und linksseitige Koeffizientensumme 
unverändert bleibt. 



8 Dämpfung 

Die Dämpfung der Schallausbreitung im Sprechtrakt erfolgt zu einem 
Großteil durch den Schallaustritt am Mund und an den Nasenlöchern. Die- 
ser wird durch eine Reflexion der Wellen mit einem endlichen Verhältnis 
der akustischen Impedanzen zwischen dem Querschnitt der Schallaustritt- 
öffnung und dem sich daran anschließendem Halbraum Rechnung getragen. 
In der einfachsten Form erfolgt das durch einen abschließenden Reflexions- 
koeffizienten, dessen Betrag entsprechend kleiner 1 ist. 

Der Sprechtrakt und insbesondere der Nasaltrakt weist zudem eine in- 
nere Dämpfungen auf, welche die Resonanzeigenschaften beeinflussen. Diese 
treten überwiegend an den Wänden auf und werden in den folgenden Ab- 




Bild 7.3: Vergleich der Gruppenlaufzeiten Tg zweier idealisierter Übertragungs- 
funktionen mit durch Filter approximierter Übertragungsfunktionen in 
Abhängigkeit der Kreisfrequenz uj. Bei der hier verwendeten Diskretisierung von 
0,5 mm entspricht tt einer Frequenz von 340 kHz bei einer Schallgeschwindigkeit 
von 340 m/s; der Bereich der Gruppenlaufzeit ist einem Schallweg von 1 mm äqui- 
valent. 
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schnitten genauer betrachtet und in die Simulation der Schallausbreitung 
über ein zweckmäßiges phänomenologisches Modell mit einbezogen. 

8.1 Dämpfungsursachen 

Für die Dämpfung der Schallausbreitung sind eine Reihe von Ursachen 
bekannt, vgl. |Ral896( IMoI681 ILeSWOÖ] . Für kleine Lautstärken, wie sie im 
Sprechtrakt auftreten, sind dies: 

- Wärmediffusion 

- Wärmekapazität der Wände 

- Viskose Reibung. 

Der erste Effekt beruht auf der thermischen Diffusion der in den Schall- 
wellen inhärenten Temperaturunterschiede, der Abweichung von der adia- 
batischen Beziehung zwischen Druck und Temperatur. Er wird bspw. in 
|MoI68j diskutiert und trägt wenig zur Dämpfung akustischer Systeme der 
hier betrachteten Größen und Frequenzen bei: Sie ermitteln bei 1000 Hz ei- 
ne Dämpfung von 10 dB auf einer Entfernung von 10 km. Auch wenn diese 
Dämpfung bei mehratomigen Gasen durch die Anregung von Molekülrota- 
tion und -Schwingung stärker ist, wird sie aufgrund ihres letztlich kleinen 
Beitrags vernachlässigt. 

Dieser Effekt tritt jedoch bedeutend stärker zutage, wenn die Luft mit 
einem anderen Medium höherer Wärmekapazität im Kontakt ist, hier den 
Wänden des Nasaltrakts. Verstärkt wird dieser Effekt durch die viskose Rei- 
bung der Schallschnelle an den ruhenden Wänden!^, welche ihre Ursache 
ebenfalls in der Diffusion der Gasmoleküle hat — mit dem Unterschied, 
dass hier nicht mehr ihre mittlere Bewegungsenergie, sondern der mittlere 
Impuls betrachtet wird, wie |Kil868j ausführt. 

Ausgehend von den Navier-Stokes-Gleichungen und der Wärmeleitungs- 
gleichung, kann man eine erweiterte Differentialgleichung für die Schallaus- 
breitung entwickeln, vgl. |Kil8681 IMoI68| : 



29. Grundlegene Untersuchungen stammen von Helmholtz, der in 'Hcl863b' den Rei- 
bungsmechanismus beschreibt, Le Roux, der in [Rol862[|Rol867| eine abweichende Schall- 
geschwindigkeit in Röhren beobachtet, Regnault, der in [Rel868| zudem eine Dämpfung 
erkennt und eine Elastizitätsabnahme der Luft durch Wechselwirkung mit den Rohr- 
wände vermutet, Kundt, der in Kul 868l die Abhängigkeit der Schallgeschwindigkeit von 
u. a. Durchmesser und Frequenz experimentell untersucht und schließlich Kirchhoff, der in 
|Kil868| eine passende mathematische Beschreibung dieser Effekte unter Berücksichtigung 
der Theorie reibungsbehafteter Strömungen von Stokes [Stl845) bzw. der Gastheorie von 
Maxwell [Mal867] zeigt. So findet beispielsweise Kundt a a. O., S. 370, dass die Schallge- 
schwindigkeit bei einem Rohrdurchmesser von 3,5 mm und einer Wellenlänge von 18 cm 
um 9 % reduziert ist. 
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und die Wärmeleitungsgleichung erweitert sich zu 

, ^2 9 f K — 1 
IhcV T = — [t p 



dt 



na 



Hierbei ist r die Differenz zur mittleren Temperatur, k der Adiabatenkoef- 
fizient, a der Volumenausdehnungskoeffizient, Ih und ly sind die mittleren 
freien Weglängen der Gasmoleküle. Man findet hierin eine Reihe von be- 
kannten Gleichungen zur Schallausbreitung, beispielsweise: 

für reibungsfreie isotherme Schallausbreitung (/„ = 0, r = 0) mit der um ^/K 
verringerten Ausbreitungsgeschwindigkeit; für die reibungsfrei adiabatische 
Schallausbreitung {1^ = und Ih = 0, letzteres führt zu r = -^^p) die 
akustische Wellengleichung aus Abschnitt 15.2t 

^ dt"^ \ ^ Ka ^ ) dt"^ ^ 
Mit einer Isobaren Betrachtung (p = 0) erhält man schließlich 



W = — — r 



lyC dt 

die Wärmeleitungsgleichung und 1^ = 1^. Die Randbedingungen für die Dif- 
ferentialgleichung sind näherungsweise 

u = 0, r = 0, 

welche die ruhenden Wände und die höheren Wärmekapazität und -leitfähig- 
keit der Wände erfassen. In [MoI68j ist eine schrittweise Entwicklung der 
allgemeinen Lösung angegeben. 

Darüber hinausgehende Dämpfungsursachen, wie die Schalleinkopplung 
in das das umliegende Gewebe oder aus der turbulenten Reibung der Schal- 
lausbreitung, bleiben im Folgenden unberücksichtigt. Da der Nasaltrakt ein 
aus Knochen und Knorpeln umgebener Hohlraum ist, was ihm eine ho- 
he Steifigkeit verleiht, ist der Beitrag ersterer entsprechend gering. Auch 
der nichtlineare Dämpfungsterm der turbulenten Reibung trägt für geringe 
Schallpegel wenig bei. 

8.2 Modellierung 

Die lineare Differentialgleichung im Abschnitt zuvor führt zu einer Grö- 
ßenordnung der Konstante des exponentiellen Abfalls unterhalb der Git- 
terdiskretisierung, wie fMoI68] zeigt. Aus diesem Grund würde die direkte 
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Umsetzung der Differentialgleichungen mittels finiter Methoden eine wesent- 
liche Verfeinerung des Gitters nach sich ziehen und damit eine in der vierten 
Potenz wachsende Rechenzeit. Darüber hinaus wären wiederum Kenntnisse 
des genauen Oberflächenverlaufs notwendig. 

Es wird deshalb ein phänomenologisches Modell entwickelt, das diese 
Erfordernisse nicht hat und sich vergleichsweise einfach in das Diskretisie- 
rungsschema einfügen lässt. Im Bereich der Oberfläche erweitert sich die 
Wellengleichung zu 



wobei R' die Dämpfung charakterisiert. Entsprechend erweitert sich die in 
Abschnitt 15.61 gefundenen Differenzengleichung mit R = R'g/2(? zu 



Die Dämpfung hat verschiedene Ursachen, deren Beiträge unterschied- 
lichen Gesetzmäßigkeiten gehorchen: Betrachtet man die Schallausbreitung 
längs eines zylindrischen Rohrs, so ist die aus Wärmeleitung und viskoser 
Reibung resultierende Dämpfung proportional zu der Wurzel der Frequenz 
und umgekehrt proportional zu der Wurzel der Querschnittsfläche. Weite- 
re Dämpfungen sind frequenzunabhängig und umgekehrt proportional der 
Querschnittsfläche oder der Wurzel der Querschnittsfläche. Für den Nasal- 
trakt ist die Dämpfung im Bereich kleiner Querschnittsflächen maßgeblich. 
Entsprechend wird der Dämpfungskoeffizient R = 5 ■ 10~^ gewählt, so dass 
die DifFerenzengleichungen in diesem Bereich das reale Verhalten approxi- 
mieren, wie in Tabelle [8.11 dargestellt. 



Tabelle 8.1: Dämpfung eines Rohrs mit der Querschnittsfläche A verglichen mit 
Literaturwerten aus |MüM03| in [dB/m] bei / = 1 kHz. 

8.3 Prequenzabhängigkeit 

Die Frequenzabhängigkeit der Dämpfung ist in Bild 18. Ii gezeigt. Durch 
eine zwei- oder mehrfache Berechnung der Ubertragungsfunktion des Na- 
saltrakt mit Dämpfungskoeffizienten, die für die jeweilige Frequenz zutref- 
fend sind, kann dieser Abhängigkeit Rechnung getragen werden. Die gesamte 
Ubertragungsfunktion ergibt sich dann durch eine gewichtete Uberlagerung 




(1 -|- R)px,y,z,t+1 — '^Px,y,z,t + (1 — R)Px,y,z,t-l 



j4/[mm^] 



Modell Literatur 



3,00 
9,25 
34,25 



11,0 
7,2 
4,2 



12,3 
6,6 
3,3 
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der einzelnen Übertragungsfunktionen. Alternativ oder ergänzend kann die 
Ordnung des Differenzen-Operators in Zeitrichtung erhöht und dessen Fre- 
quenzverhalten angepasst werden. 




Bild 8.1: Frequenzabhängige Dämpfung D der Schallausbreitung in Rohren unter- 
schiedlicher Querschnittsfläche, gekennzeichnet durch unterschiedliche Linientypen. 

8.4 Gedämpfte Wellenausbreitung 

Da die Dämpfungskoeffizienten klein sind, kann man die Approximation 
der Dämpfung auch in den Termen 1 -|- i? und 1 — ß durch und durch e~'^ 
darstellen, also 

e'Px,y,z,t+l ~ '^Px,y,z,t + e~^Px,y,z,t-l = ■■■ 

mit 

ln(l +R)- ln(l -R) „ 
7 = ^R . 

Man gewinnt dadurch eine Separation von Dämpfung und Schallausbrei- 
tungsgeschwindigkeit, die sonst miteinander verknüpft sind. Die Separation 
wird ersichtlich, wenn man die Funktion 

Px,t = sm{ujt — kx) 

als Lösungsansatz für den auf eine Dimension vereinfachten Fall betrachtet. 
Man erhält 

g7e-i(*+l) sm{uj{t+l)-kx) - 26"'"* sm{uit-kx) + e-^e""'*-!) sm(a;{t-l)-fca;) = ... , 

was durch Dividieren mit e~°* und durch a = 7 in die aus Abschnitt 15.61 
bekannte Form übergeht. Eine Abhängigkeit zwischen w und 7 ist nicht 
entstanden. 
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8.5 Repräsentation 

Die Dämpfungskoeffizienten werden ähnlich den Volumenkoeffizienten 
des CT-Datensatzes dem Programm kodiert als Stapel tomographischer Da- 
teien bereitgestellt. Jede Datei korrespondiert dabei einer Datei der CT- 
Daten, sowohl in Lage als auch in Auflösung. Aus praktischen Erwägungen 
sollten die Koeffizienten derart kodiert sein, dass die physikalische Beschrei- 
bung bei einer Translation oder Rotation der Datensätze invariant ist. 

Anhand der hier gefundenen Beziehungen lässt sich die eingangs gestell- 
te Forderung nach Invarianz untersuchen. Betrachtet man ein Volumenele- 
ment mit Dämpfung, umgeben von anderen ohne Dämpfung, so werden die 
Schallwellen in diesem um e~"* gedämpft. Verschiebt man nun das Gitter 
der Volumenelemente exemplarisch um eine halbe Gitterlänge, so sollen die 
beiden jetzt beteiligten Volumen die gleiche Dämpfung verursachen, jede 
einzelne folglich V e~°-^ = e~"*/^. Es ist sinnvoll, die Dämpfung durch den 
Koeffizienten a zu repräsentieren und diese bei Translation, Rotation und 
Skalierung linear zu interpolieren, da dann die physikalischen Eigenschaften 
näherungsweise unverändert bleiben. Diese Parameterform hat zudem den 
Vorteil, dass sich sowohl Bereiche geringer Dämpfung, wie die hier diskutier- 
ten Wände, als auch Bereiche hoher Dämpfung für reflexionsfreie Abschlüsse 
an den Schallaustrittsöffnungen einheitlich in Festkommadarstellung abbil- 
den lassen. 

8.6 Berücksichtigung partieller Volumen 

Die bisherigen Betrachtungen zur Dämpfung sind davon ausgegangen, 
dass der Rand mit dem Gitter zusammenfällt. Zur Berücksichtigung von 
partiellen Volumen nach [7] muss die Betrachtung erweitert werden. Hierbei 
steht weniger eine Verbesserung des Dämpfungsmodells im Vordergrund, als 
vielmehr das Ziel, beide Modelle gleichzeitig nutzen zu können. 

Betrachtet man hierzu die Fälle, dass der Rand auf dem Gitter liegt, 
und dass der Rand ein Volumenelement mittig durchquert. lim ersten Fall 
wird die in Abschnitt 18.21 ermittelte Dämpfung zugewiesen. Eine einfache 
Verallgemeinerung für den zweiten Fall ist: 

R, = Ro{{l-Xx-i) + {l-Xx+i)) , 

die für die anderen Raumrichtungen durch entsprechende Summanden er- 
weiter wird. Rq ist der in dem genannten Abschnitt halbempirisch bestimmte 
Dämpfungskoeffizient. 
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9 Implementierung und Optimierung 

Zur Anwendung der in den Abschnitten zuvor entworfenen Finite-Dif- 
ferenzen wird in diesem Abschnitt ihre programmtechnische Reahsierung 
betrachtet. Ziel ist es, ein Werkzeug zu entwickeln, mit dessen Hilfe auf 
Personal Computern die erweiterte Wellengleichung für beliebige Randbe- 
dingungen aus Tomographien gelöst werden kann. Diese Zielsetzung lässt 
sich in drei Komponenten unterteilen: 

- die Daten-Schnittstelle, 

- die Berechnung der Wellendifferentialgleichung, 

- die graphische Benutzeroberfläche. 

Zur Realisierung des Programms wurde ein objektorientierter Ansatz un- 
ter Verwendung der Programmiersprache C-|--|- gewählt. Dies erlaubt zum 
einen den Zugriff auf verschiedene Bibliotheken für eine graphische Benutzer- 
schnittstelle und Datenschnittstelle, zum anderen eine Optimierung und 
Parallelisierung der aufwendigen Berechnung der Wellendifferentialgleichung. 

Die Komponente zur Berechnung der Wellendifferentialgleichung wird 
in Abschnitt 19.31 insbesondere im Hinblick auf die Effizienz der Berechnung 
betrachtet, da die zur Berechnung herangezogenen Daten einen erheblichen 
Umfang haben. Die Daten-Schnittstelle bindet digitale Tomographiedaten 
ein und liefert die zu verarbeitenden Randbedingungen. Das Format der 
Daten-Schnittstellen wird deshalb in Abschnitt E2] entwickelt. Die Anforde- 
rung an die Daten-Schnittstelle ist dabei eine möglichst hohe Integrierbarkeit 
mit bestehenden Anwendungen, um die anatomischen Daten letztendlich 
dem Werkzeug zugänglich zu machen. Die analoge Anforderung ergibt sich 
für die gewonnen Ergebnisse, die für eine über die in der Benutzeroberfläche 
integrierte Darstellung hinausgehende Analyse exportiert werden müssen. 

9.1 Graphische Benutzeroberfläche 

Die graphische Benutzeroberfläche stellt eine interaktive Verbindung zwi- 
schen dem Anwender und dem Werkzeug selbst her. Der Anwender kann 
mit Hilfe der Benutzeroberfläche die Berechnung kontrollieren, indem sie 
deren Ergebnisse in Form eines zeitlichen Schalldruckverlaufs an einem oder 
mehreren ausgewählten Punkten visualisiert. Darüber hinaus bietet die Be- 
nutzeroberfläche die Möglichkeit, die untersuchte Geometrie wahlweise mit 
einer Uberlagerung Schallausbreitung in Form eines zeitschrittweisen Ver- 
laufs von verschiedenen Perspektiven zu betrachten. Um die dreidimensio- 
nale Struktur zu erkunden, wird die Möglichkeit gegeben, diese in Form von 
Sagittal-, Frontal- oder Transversalschnitten darzustellen, welche senkrecht 
zu der Schnittebene verschiebbar sind. Da die graphische Benutzeroberflä- 
che lediglich ein Mittel zum Zweck ist und keine darüber hinausgehenden 
Ergebnisse liefert, wird auf ihre Realisierung nachfolgend nicht eingegangen. 
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9.2 Daten-Schnittstelle 

Die aus anatomischen Untersuchungen gewonnene geometrische Beschrei- 
bung oder synthetische Geometrien werden über die Datenschnittstelle dem 
Werkzeug eingangsseitig zugänglich gemacht; ausgangseitig müssen die ge- 
wonnenen Impulsantworten zur Analyse und Darstellung weiteren Program- 
men zur Verfügung gestellt werden. Dafür ergibt sich eine Reihe von Anfor- 
derungen, die und deren Lösung durch ein intermediäres Datenformat im 
Folgenden betrachtet werden. 

Das Format der Quelldaten ist abhängig von dem datenliefernden Sy- 
stem. So verwendet der Computertomograph proprietäre Dateiformate, wäh- 
rend die Kryoschnitte in einem Format gespeichert sind, das keine Metain- 
formationen zur Interpretation der Daten enthält und einer Komprimierung 
nach |We84j unterzogen ist; Kernspinresonanz-Daten liegen im in [DICOM] 
beschriebenen und ebenso genannten Datenformat vor. Für die Verifizierung 
der Modelle, der daraus abgeleiteten Algorithmen und ihrer programmtech- 
nischen Umsetzung sind zudem Tests anhand von synthetischen geometri- 
schen Strukturen mit bekannten akustischen Eigenschaften nützlich. Die Da- 
tensätze dieser Teststrukturen sollten möglichst einfach zu generieren sein 
und müssen in das Programm übernommen werden können. 

Für alle diese Datenformate hätte zur Integration der zugehörigen Schnitt- 
stellen in das Werkzeug eine erhebliche Zeit aufgewendet werden müssen 
und die Anwendung des Werkzeugs bliebe auf eben diese Datenformate be- 
schränkt. Effizienter und flexibler ist das stattdessen verwendete Adapter- 
Pattern nach [GaHJV94j . Diesem Entwurfsmuster folgend bilden verschiede- 
nen Adapter jeweils die unterschiedlichen Datenformate auf das einheitliche 
Schnittstellenformat des Werkzeugs ab. Das hierfür entwickelte Schnittstel- 
lenformat orientiert sich dabei an dem Prinzip der Tomographien: eine linea- 
re Abfolge von Bildern in dem weit verbreiteten, zweidimensionalen Bitmap- 
Format nach |MiBMP] wird mit einer die Anordnung in er dritten Dimension 
beschreibende, klartext-basierten und parsebaren Metainformationsdatei er- 
gänzt, wie in Ausschnitt 19. II gezeigt. Weitere Teile der Metainformationsdatei 
steuern die Interpretation der zweidimensionalen Bitmap-Dateien. 

Bestehende Programme bilden die Adapter. Daten der Kryosektionen 
können mittels Photoshop, erweitert um eine einfache Skriptsteuerung, ge- 
lesen, skaliert und in das Bitmap-Format übertragen werden, wie bereits in 
Abschnitt lö.ll angesprochen. Die Daten der Computertomographie wurden 
mittels Easy Vision konvertiert, Daten aus dem MRT durch DicomWorks 
aus IPuDICOM"] . Das in |Fr98) beschriebenen Programm NMRWIN liest 
proprietäre Datenformate von Computer- oder Kernspintomographen und 
konvertiert sie in das Bitmap- Format, vgl. S. 11331 Die Bitmap-Dateien sind 
für die Schnittstelle auf eine Bit- Anzahl von 24 pro Punkt in der zweidi- 
mensionalen Bildebene festgelegt, die üblicherweise jeweils dyadisch zu 8 Bit 
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98 107 124 

28 79 143 

219 231 17 

255 

255 255 255 

. .\VISMAN\VM0043.BMP 

. .\VISMAN\VM0044.BMP 

. .\VISMAN\VM0045.BMP 

. .\VISMAN\VM0166.BMP 
. .\VISMAN\VM0167.BMP 

Ausschnitt 9.1: Daten-Schnittstelle, durch die Datei-Endung .bnd gekennzeich- 
net. Die erste Zeile liefert die Ausdehnung in x-, y- und z-Richtung. In den folgen- 
den Zeilen werden die Wertetripel bzw. RGB-Darstellung der Bereiche Anregung, 
Aufzeichnungspunkt, schallweicher und schallabsorbierender Rand festgelegt. Die- 
sen schließt sich eine Liste von Pfadangaben für Dateien im Bitmap-Format an. 
Die Reihenfolge der Datei- Angaben entspricht dem Aufbau der dreidimensionalen 
Struktur. 

als rote, grüne und blaue Farbkomponente dargestellt werden. Durch eine 
Requantisierung in den Adaptern werden durch die Tomographien bestimm- 
ten Volumenparameter x ^uf diese 8 Bit, entsprechend einem Wertebereich 
von 256 ab gebildet, Ell und in allen drei Komponenten abgelegt. Mit die- 
ser Repräsentation ist eine visuelle Überprüfung und die die Erzeugung 
von Teststrukturen mittels vorhandenen, betriebssystemeigenen Bildbear- 
beitungsprogrammen möglich und das Einlesen der Daten in das Werkzeug 
wird durch vorhandene Programmbibliotheken vereinfacht. In einem zweiten 
Schritt werden Bereiche der Schallanregung, schallabsorbierende und gege- 
benenfalls schallweiche Flächen sowie Aufzeichnungspunkte für das Simula- 
tionsergebnis durch bestimmte Wertetripel gekennzeichnet. Dies geschieht 
wiederum mit den vorhandenen Bildbearbeitungsprogrammen. Durch eine 
geeignete Wahl der Wertetripel treten darin die besonderen Bereiche mit 
einem hohen farblichen Kontrast hervor. 

30. Für die Analyse der Kryosektionen in |Ra991 IRaSL99l IRaLOOb] werden 8 Bit ver- 
wendet, da die partiellen Volumen aus den in Abschnitt 16.11 genannten Gründen nicht 
angewendet werden. Die Kryosektionen werden in vier Bereiche kategorisiert: 

- Hohlraum, 

- absorbierende Rand, 

- Anregungsstelle und 

- schallharte Bereich, dem alle anderen Werte zugewiesen sind. 

31. Die Requantisierung verursacht keinen signifikanten Fehler. Die Daten der Compu- 
tertomographie, deren genutzter Wertebereich sich zwischen -1000 und erstreckt, sind 
mit geringfügigen Messfehlern behaftet, wie sie auch in Bild 17. II nach der Requantisierung 
erkennbar sind. Die Messfehler dominieren offenbar gegenüber der Requantisierung. 



9. Implementierung und Optimierung 



70 



Die Ausgabe der an den Aufzeichnungspunkten gewonnenen Simulati- 
onsdatenl^ erfolgt über standardisierte File-Streams, in denen der dezimal- 
kodiert Wert jedes Zeitschritts zeilenweise abgelegt wird. Diese Folge von 
Wert kann von anderen Applikationen, wie edit, Matlab und Gnuplot zur 
Uberprüfung, weiteren Analyse und Darstellung unmittelbar gelesen wer- 
den. Der Dateiname wird durch eine Nummer gebildet, die im Falle mehrerer 
Aufzeichnungspunkten die Zuordnung erlaubt, und durch die Datei-Endung 
. out gekennzeichnet. 

9.3 Berechnung der Wellengleichung 

Die über die Datenschnittstelle eingelesenen Tomographien werden in ei- 
nem dreidimensionalen Array abgelegt, vgl. Ausschnitt 19.21 des Programm- 
textes. Anhand der Volumenparameter x und der durch Wertetripel ausge- 
zeichneten Bereiche werden die Koeffizienten zur Berechnung der Finiten- 
Differenzen nach Abschnitt [7] und [S] über die Reflexionsfaktoren festgelegt, 
Speicheradressen der Aufzeichnungs- und Anregungspunkte bestimmt, so- 
wie die zu teilweise oder vollständig mit Luft gefüllten Raumpunkte in dem 
quaderförmigen Datensatz ermittelt, auf die die rechenintensive Anwendung 
des Finite-Differenzenoperators begrenzt wird. Im Anschluss erfolgt die Ein- 
prägung eines Einheitsimpulses in den Anregungspunkten. Zur Bestimmung 
des Übertragungsverhalten werden meist 2^^ = 65536 Iterationen durch- 
geführt, was nach einer Fouriertransformation der Impulsantwort zu einer 
Frequenzauflösung für das Beispiel im Ausschnitt 19.11 von 8 Hz führt. 

Einer der wichtigsten und interessantesten Aspekte des Programms ist 
die Implementierung des Operators zur Berechnung der Wellengleichung, 
nicht zuletzt deshalb, weil im Vergleich die Ausführungszeiten aller anderen 
Programmteile vernachlässigbar sind. Der zu analysierende Datensatz hat 
in dem genannten Beispiel eine Größe von 98 * 107 * 124 ~ 1.300.000 Vo- 
lumenelementen, deren Speicherbedarf sich von jeweils 8 Byte für ein nicht 
am Rand liegendes Volumenelement auf andernfalls 44 Byte erstreckt. [fl Für 
eine kurze Ausführungszeit der Berechnung ist zum einen die Datenmenge 
bzw. die Speicherzugriffe möglichst gering zu halten, um die Ausführung 
nicht durch Zugriffslatenzzeiten[f^ fortwährend zu verlangsamen. Zum ande- 

32. Für die Simulationsdaten wird ein Gleitkommaformat einfacher Genauigkeit ver- 
wendet. 

33. Die Werte ergeben sich im ersten Fall aus zwei Druckwerten zu je 4 Byte, im zweiten 
Fall kommen die Koeffizienten für alle neun Punkte des Finiten-Differenzen-Operators mit 
jeweils der gleichen Größe hinzu. 

34. Moderne Betriebssysteme ermöglichen ein automatisches Auslagern von Daten aus 
dem Hauptspeicher auf Festplatten, falls dessen Kapazität überschritten wird. Ein erneuter 
Zugriff auf ausgelagerte Daten verursacht jedoch eine erhebliche Wartezeit (typ. 10ms), bis 
die Daten wieder bereitgestellt sind. Ebenso verhält sich der Speicher des Prozessors selbst, 
der sogenannten Cache, in Relation zum Hauptspeicher. Auch hier ist die Auslagerung von 
Daten in den Hauptspeicher um rund 2 Größenordnungen langsamer. 
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ren ist Berechnung selbst möglichst optimal zu gestalten. Erst mit der Er- 
füllung beider Forderungen ergibt sich eine geringe Laufzeit des Programms. 

Die Forderung nach einer geringen Datenmenge hat einen direkten Ein- 
fluss auf die Berechnung der Wellengleichung. Eine Klasse speichereffizienter 
Algorithmen sind 7n-Ploce- Verfahren, bei denen die Ergebnisse einer Itera- 
tion auf dann nicht mehr benötigte Variablen zurückgeschrieben werden. 
Dies kann — ein weiterer Vorteil expliziter Zeitschrittverfahren — genutzt 
werden, in dem man die Zeitebenen 

sowie 

jeweils auf die gleiche Stelle im Hauptspeicher abbildet. Desweiteren vermei- 
det dieses Verfahren die Notwendigkeit, Datensätze zu kopieren beziehungs- 
weise zu verschieben. Die programmtechnische Umsetzung erfolgt durch ei- 
ne Erweiterung des Array um eine vierte Dimension, die die Zeitrichtung in 
Form der beiden Zeitebenen umfasst. 

9.4 Programmoptimierung 

Die Ausführungszeit des Programms zur Simulation der Wellenausbrei- 
tung mittels Finiter Differenzen liegt mit grundlegenden Optimierungen, 
vgl. Ausschnitt 19.21 und eine ausführlichere Analyse eines Aspekts in |Ra99| . 
anfangs bei rund fünfzig Stunden. Wenngleich diese Zeit für bestimmte Be- 
rechnungen erträglich ist, so ist sie doch störend, wenn man Parameter opti- 
mieren möchte oder eine größere Menge von Datensätzen untersuchen will. 

Demgegenüber ermöglichen Fortschritte in der Halbleiterherstellung die 
Herstellung von immer schnelleren und eine größere Anzahl von Elementen 
umfassenden Schaltungen auf einem Chip. Insbesondere bei Prozessoren er- 
laubt die Integration dieser zusätzlichen Elemente durch eine Erweiterung 
der Architektur einen Geschwindigkeitszuwachs weit über die Steigerung 
der Taktrate hinaus. Im Folgenden werden die Ergebnisse zweier Methoden 
betrachtet, Fortschritte in Rechnerarchitekturen vorteilhaft zu nutzen, um 
damit eine Reduzierung der Rechenzeit zu erzielen. 

9.5 Parallelisierung für SMP und NUMA 

Während der ursprünglich eingesetzte Prozessor vom Typ Pentium be- 
reits über eine - bezogen auf seine Taktfrequenz - leistungsfähige Rechen- 
einheit für Fließkommazahlen besitzt, verfügen neuere Prozessoren vom Typ 
Pentium III und nachfolgende zudem über ein vielfaches größeren integrier- 
ten Zwischenspeicher, der häufig benutzte Daten auf dem Chip vorrätig 
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for( X = 1; X < Xmax - 1; x++) 



for( X = 1; x < Xmax - 1; x++) 
for( y = 1; y < Ymax - 1; y++) 
for( z = 1; z < Zmax - 1; z++) 
switchC B.TypC x, y, z ) ) { 



for( y = 1; y < Ymax - 1; y++) { 



float *uL = u[l-t] [x] [y] ; 
float +ul = u[t] [x] [y] ; 



float *ulx = u[t] [x-1] [y] 

float *ulX = u[t] [x+1] [y] 

float *uly = u[t] [x] [y-1] 

float *ulY = u[t] [x] [y+1] 



u[l-t] [x] [y] [z] = kFlaeche * ( 



case Bound : : Inner : 



for( zp = zi[x][y]; z = *zp; zp++) 



uL[z] = kFlaeche * ( 



ulx[z] + ulX[z] 

+ uly[z] + ulY[z] 



u[t] [x-1] [y] [z] 
+ u[t] [x+1] [y] [z] 
+ u[t] [x] [y-1] [z] 
+ u[t] [x] [y+1] [z] 
+ u[t] [x] [y] [z-1] 



+ ul[z-l] + ul[z+l] ) 



+ u[t] [x] [y] [z+1] ) 

+ kZentrum * u[t] [x] [y] [z] 



+ kZentrum * ul [z] 
- uL [z] ; 



- u[l-t] [x] [y] [z]; 



for( zp = zr[x] [y] ; z = *zp; zp++) 
uL [z] = . . . ; 



} 



> 



Ausschnitt 9.2: Implementierungen zweier Kerne der zeitlichen Itcrationen zur 
Berechnung der Finiten Differenzen in C+-I-. Der optimierte Kern ist links darge- 
stellt, rechts ist zum Vergleich der nur bezüglich des effizienten Zugriffs auf den 
Level-l-Cache entworfenen Kern gezeigt. Der Zeitparameter t alterniert von Zeit- 
schritt zu Zeitschritt zwischen und 1. 

Der Schalldruck ist in dem vierdimensionalen Feld u in Fließkomma-Darstellung 
hinterlegt, das sich aus einer Zeit- und drei Raumdimensionen ergibt. Der Zu- 
griff erfolgt durch den Dereferenzierungsoperator [] . In beiden Implementierungen 
führt die innerste f or-Schleife in der Raumdimension z die letzte Dereferenzierung 
durch und greift somit auf dicht beieinander liegende Daten zu, die deshalb über- 
wiegend in dem latenzarmen Level-l-Cache vorrätig sind. Der links gezeigte Kern 
nimmt zudem die mehrfache Dereferenzierung aus der innersten Schleife heraus, 
wodurch die verbleibenden Operationen zum Zugriff auf das Datenfeld parallel zu 
den FlielBkomma-Berechnungen der Finiten-Differenzen durchgeführt werden und 
letztere nicht mehr wesentlich verlangsamen. 

Die Switch. . case-Fallunterscheidung, die optimierte Ausführungspfade für die ge- 
zeigten inneren, aufwendigeren randnahen und sonstigen Finite Differenzen bereit- 
stellt, kann zur Vermeidung von Brauch- PredictionrFehleTn ebenfalls aus der inne- 
ren Schleife herausgenommen werden. Durch Indexfelder zi für innere und zr für 
Randelemente wird sie in die Initialisicrungsphase des Programms verschoben, wo- 
durch die Befehls-Abarbeitungskctte {Pipeline) des Prozessors im Kern ungestört 
ist und die Ausführungsgeschwindigkeit des Programms nochmals deutlich erhöht 
wird. 

hält und schnell verfügbar macht. Dieser als Level- 2-Cache bezeichnete Zwi- 
schenspeicher erlaubt eine sinnvolle und preiswerte Verwendung mehrerer 
Prozessoren. Hierbei greifen die Prozessoren auf einen gemeinsamen Haupt- 
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Speicher zu und können so gleichzeitig einen Algorithmus auf gemeinsamen 
Daten ausführen; der Hauptspeicher wird dabei von übermäßig vielen Zu- 
griffen der Prozessoren durch ihre Caches entlastet. Eine derartig aufgebaute 
Rechnerarchitektur bezeichnet man als Symmetrie Multi Proeessing, abge- 
kürzt SMP. 

Für die mehrere Megabyte umfassenden Datensätze der Finiten Differen- 
zen muss diese Architektur durch eine geeignete Partitionierung der Daten 
unterstützt werden, damit sie ihren Vorteil voll entfalten kann: Die Daten 
müssen so angeordnet und aufgerufen werden, dass sie möglichst häufig dem 
Cache entnommen werden, sonst würde die begrenzte Datenübertragungs- 
rate zum Hauptspeicher den Geschwindigkeitsgewinn vereiteln. Hierfür wird 
in |RaL00a] eine räumliche und zeitliche Unterteilung der Berechnungen in 
Quader untersucht, vgl. Bild 19. 1[ Dabei wird ausgenutzt, dass sich der Fol- 
gewert des berechneten Schallfeldes an einem Raumpunkt aus diesem selbst 
und nur den benachbarten Werten bestimmen lässt: Wenn man in einem ku- 
bischen oder quaderförmigen Volumen sämtliche Werte zu einem Zeitpunkt 
kennt, kann man daraus für den folgenden Zeitpunkt alle Werte bis auf die 
Ränder bestimmen; die Ausdehnung der Volumen verringert sich in jede 
Raumrichtung also jeweils um 2. Sobald in einer Raumrichtung keine Rand- 
werte mehr für eine Berechnung vorliegen, sind die Berechnungen für dieses 
quaderförmige Volumen abgeschlossen. Die nächsten Quader können durch 
eine passende Wahl der Reihenfolge auf die vorausberechneten Werte der ab- 
geschlossenen Quader zugreifen und so aufgebaut werden und so fort. Wird 
die Größe der Quader und Kuben nun so gewählt, dass sie jeweils komplett 
im Cache untergebracht werden können, und so sich die Hauptspeicherzu- 
griffe auf den Auf- und Abbau reduzieren. Die Anzahl der Speicherzugriffe 
reduziert sich auf 0(1/ \/n), wie in |RaL00a] ausgeführt, wobei n die Anzahl 
der Raumpunkte der Teilvolumen bei maximaler Ausdehnung ist. 

Dieses Prinzip der Unterteilung nutzt die Caches und die Prozessoren 
effizient und ist wohl auch als Datenstruktur für weitere Optimierungen wie 
in Abschnitt 19.61 geeignet. Für die hier betrachten Geometrien lässt das Ver- 
fahren zudem weiter vereinfachen, da die Daten mehrere tomographische 
Schichten vollständig in dem Level- 2-Cache untergebracht werden können. 
Bei diesen ist der Rand in Schichtebene durch Randbedingungen abgeschlos- 
sen, so dass das Prinzip lediglicht senkrecht zu den Schichten angewendet 
werden braucht. 

Die Struktur der Datenzugriffe des Programms sind auch auf modernen, 
asymmetrischen iVC/M^-Architekturen, ein Akronym von Non Unified Me- 
mory Aeeess, vorteilhaft. Bei diesen Rechnerarchitekturen ist zusätzlich die 
Schnittstelle zum Hauptspeicher auf dem Prozessorchip integriert, so dass 
sich die Datenübertragungsrate zum Hauptspeicher mit jedem Prozessorchip 
erhöht. Die Kommunikation zu anderen Prozessoren und daran angebundene 
Speicher erfolgt über dedizierte Schnittstellen. So nutzt die Software jetzt 
ein System mit acht Opteron Prozessoren, jeweils mit einer Taktrate von 
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Bild 9.1: Schema der Datenunterteilung in Kuben, hervorgehoben, und Quader 
in aufeinanderfolgenden Zeitschritten der Simulation. In den Abschnitten 1-7 ist 
die Abbauphase eines Kubus hellgrau hervorgehoben, dunkelgrau die nachfolgend 
berechnete Aufbauphase gefolgt von dem anscließenden Abbau in Abschnitt 8. Die 
Zentren der Kuben sind ortsfest. 



zwei Gigahertz jeweils zwei Fließkommaoperationen durchführen können. 
Die gesamte Berechnung von Impulsantworten des Vokaltrakts dauert mit 
den Optimierungen typisch nur wenige Minuten. 



9.6 Vektorisierung 

Ein weiterer Weg, die Rechenleistung zu steigern, liegt in der Verwen- 
dung eines Vektorrechners bzw. nach |F172j einer Single Instruction Multi- 
ple Z?ata- Architektur. Diese Architektur war lange die einzige Möglichkeit 
zu einer hohen Rechenleistung für Gleitkommazahlen |Cr76j . In integrierten 
Prozessoren wird sie seit dem Pentium III ebenfalls unterstützt, jedoch in 
einer reduzierten Form auf Vektoren der Länge vier. Diese ist zudem auf 
eine sehr stringente Platzierung der Daten angewiesen. Eine Untersuchung 
in [RaLOOa] zeigte eine Geschwindigkeitssteigerung um den Faktor zwei für 
die Verwendung dieser Erweiterung. 

Eine deutlich höhere Steigerung ermöglicht der Einsatz moderner Gra- 
fikprozessoren. Zur Unterstützung von dreidimensionalen Darstellungen be- 
sitzen diese eine Vielzahl parallel arbeitender Gleitkommaeinheiten. Diese 
werden ebenfalls über eine SIMD- Architektur programmiert und leisten über 
eine Billion Gleitkommaoperationen pro Sekunde. Der an diese Prozessoren 
angebundene Speicher besitzt eine hohe Bandbreite und hinreichende Grö- 
ße für diese Applikation |Ma08bl ILiNOMÖS] , so dass sie sich hiermit weiter 
beschleunigen lässt. 
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10 Validierung 

Eine Validierung der Rechnungen hat hier mehrere Ziele. Ein Ziel ist das 
Aufdecken trivialer Fehler, bspw. in der programmtechnischen Umsetzung. 
Ein weiteres Ziel ist die physikalische Überprüfung, hier insbesondere die zu- 
treffende Modellierung der Randbedingungen. Letztlich kann die Validierung 
auch Fehlerquellen aufzeigen und lässt eine Beurteilung der Aussagekraft 
der Simulationen zu. Zur Validierung wurde ein geschlossenes akustisches 
System gewählt, in das definiert Schall eingekoppelt wird und in dem an 
einer bestimmten Stelle der Schalldruckverlauf erfasst wird. Die folgenden 
Unterabschnitte geben einen Uberblick über die verwendeten Methoden und 
Resultate. 

10.1 Schallwandler 

Die Umwandlung von Schall in elektrische Signale kann durch elektrody- 
namische oder elektrostatische Mikrofone erfolgen. Elektrostatische Mikro- 
fone zeichnen sich durch eine einfachere Bauform aus und sind daraus resul- 
tierend mit höherer Präzision zu fertigen. Solche Mikrofone wurden auch für 
die hier vorgenommenen Messungen verwendet, da sie kleinere Abmessun- 
gen besitzen, wodurch sie sich besser an den hier untersuchten Geometrien 
anordnen lassen. Der Hersteller Bruel & KjtBr hat zudem in jBK95j ihre 
akustische Rückwirkung untersucht, wodurch sich die Randbedingungen im 
Bereich der Mikrofone definieren lassen. 

An eine zur Anregung von akustischen Systemen verwendete Schallquelle 
werden bei einer quantitativen Messung besondere Anforderungen gestellt. 
Meist werden elektroakustische Wandler eingesetzt, da diese sehr weit ent- 
wickelt sind und diesen Anforderungen sehr nahe kommen: Zunächst muss 
das Üb er tragungs verhalten von elektrischen Signalen zu akustischen Signa- 
len bekannt sein, ebenso ihre akustische Rückwirkung. Desweiteren sind ho- 
he Linearität und hohe Schallpegel vorteilhaft. 

Übliche Lautsprecher wurden aufgrund ihrer Größe nicht in Erwägung 
gezogen, da ihr Durchmesser zur Erzeugung niedriger Frequenzen meist über 
5 cm liegt. Hier lässt sich zwar der Größenunterschied durch einen Adap- 
ter kompensieren, dessen akustische Eigenschaften sind aber nur schlecht 
zu bestimmen. Die Verwendung von miniaturisierten elektrodynamischen 
Schallwandlern aus Kopfhörern, welche in der Ohrmuschel platziert werden, 
erbrachten keine befriedigenden Resultate. 

Die Zielsetzung konnte unter inversem Betrieb eines weiteren Mikrofons 
als Schallquelle erreicht werden. Hierzu wird die Elektrode mit einer dem 
Signal proportionalen Spannung von typisch über 100 Volt betrieben, welche 
von einer Gleichspannung von 200 Volt überlagert wird. Bauartbedingt gibt 
diese Schallquelle jedoch insbesondere bei niedrigen Frequenzen nur geringe 
SchaUleistungen ab. 
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Bild 10.1: Schallwandler: oben Mikrofon mit angeschraubten Vorverstärker, unten 
Signalgeber. Beiden sind Konen aufgesetzt, um eine schalldichte Schalleinleitung in 
den Nasaltrakt zu gewährleisten. 

10.2 PC-basierte Signalgenerierung und -erfassung 

Aufgrund der geringen Schallleistungen der Schallquelle ergeben sich 
niedrige Schall- und Signalpegel an der Mikrofonkapsel, die das thermische 
Eigenrauschen des Mikrofonvorverstärkers nicht völlig überdecken. Dieser 
störende Effekt wird durch Mitteln über eine wiederholt durchgeführte Mes- 
sung reduziert. Die Rauschleistung reduziert sich hierbei reziprok zur An- 
zahl der Messungen, während die Signalleistung konstant bleibt. Der Signal- 
rauschabstand, definiert durch den Quotienten der Leistungen, wächst folg- 
lich proportional zu der Anzahl der Messungen. Diese Mittelung reduziert 
zudem auch Störungen durch andere, nicht korrelierte Quellen und liefert so 
ein im Frequenzbereich von 1-10 kHz störarmes Signal. 

Zur automatisierten Durchführung der Messung, deren Mittelung und 
Auswertung mittels FFT wird ein Personal Computer genutzt, bei dem 
die Signalausgabe und -erfassung durch ein handelsübliche Audiointerface, 
EmulOk, erfolgt. Für die Mittelung ist eine reproduzierbare Anregung und 
Messung erforderlich, insbesondere darf kein zufälliger Unterschied, weder 
in Abtastrate noch Phase, zwischen Ausgabe und Aufzeichnung auftreten. 
Während die Abtastraten durch das Prinzip der Audiointerfaceschaltung 
sich von dem gleichen Taktgenerator ableiten und diese Bedingung erfüllt 
ist, zeigt sich, dass Phasenunterschiede auftreten. Diese resultieren nicht aus 
einer ungleichmäßigen Reaktionszeit des Betriebssystems Linux, sondern aus 
einem nicht an diese Anwendung angepassten Treiber. Die im Betriebssy- 
stem enthaltenen Treiber bewirken einen kleinen, aber variablen Zeitversatz 
zwischen Start der Aufnahme und Wiedergabe. Der Zeitversatz lässt sich 
durch eine Modifikation des Treibers beheben, wie in |RaL01] gezeigt, bei 
dem die Startzeitpunkte unter Rückgriff auf die Zeitbasis des Aduiointerfa- 
ces synchronisiert werden. Alternativ wird das ausgegebene Signal auf einen 
Eingang der Soundkarte zurückgeführt, so dass das aufgezeichnete Zweika- 
nalsignal Anregungssignal und Systemantwort enthält. 
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10.3 Versuchsaufbau 

Um die Ergebnisse der Simulation mit denen einer Messung vergleichen 
zu können, wird zur Untersuchung eine Hohlraumgeometrie gewählt, deren 
Eigenschaften auch analytisch bestimmbar sind. Am einfachsten lässt sich 
dies durch einen zylinderförmigen Hohlraum, gebildet durch ein Messing- 
rohr, realisieren. Volumen und Länge werden so gewählt, dass sie dem Na- 
saltrakt entsprechen. In das Messingrohr werden Schallgeber und Mikrofon 
eingeschoben. 

Als Anregungssignale wurden frequenzmodulierte sinusförmige Signale 
verwendet, bei denen die Frequenz exponentiell mit der Zeit erhöht wur- 
de, wodurch das Signal bei den problematischeren tiefen Frequenzen mehr 
Energie enthält. Von der Soundkarte ausgehend wurden die Signale mittels 
eines Verstärkers G.R.A.S. I4AA auf die in Abschnitt 1 1 U . 1 1 genannten Pegel 
verstärkt. Das Signal des Verstärkers wird mittels des in Bild [TÜTT] gezeig- 
ten Adapters G.R.A.S. RA0067 an der 1/2-Zon Mikrofonkapsel Bruel&Kjcer 
BK4134 angelegt. Die zweite Mikrofonkapsel des gleichen Typs diente zu- 
sammen mit dem Vorverstärker BKS 678 und dem Pegelverstärker BK2610 
zur Schallerfassung; deren Signale werden in den Line-Eingang des Audioin- 
terfaces zurückgeführt. 

Für die Simulation wird der Querschnitt des Rohrs in einem Bildbear- 
beitungsprogramm gezeichnet und diese Daten in die Simulationsumgebung 
hineingeladen. Die Anregung erfolgt mit einem Dirac-Impuls. In Bild 110.21 
sind die Ergebnisse von Simulation und Messung gezeigt, wobei der Betrags- 




Bild 10.2: Vergleich des Betragsganges einer Messung, oben, mit dem Betrags- 
gang einer Simulation, unten, der Schallausbreitung in einem Rohr mit einer dem 
Nasaltrakt ähnlichen Proportion. Die übereinstimmenden Resonanzfrequenzen wer- 
den deutlich. Durch den Verzicht auf Kompensation verbleiben in der Messung die 
zu niedrigen Frequenzen hin abfallende Schallleistung der unterhalb ihrer Eigen- 
resonanzfrequenz betriebenen elektrostatischen Schallquelle und deren zu höheren 
Frequenzen zunehmende Dämpfung. 
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gang der Simulation durch eine Division der diskreten Fouriertransformation 
des gemessenen Signals durch diejenige des Anregungssignals und einer an- 
schließenden Betragsbildung ermittelt wird; auf weitere Kalibrierungen wird 
verzichtet. Gut zu erkennen ist die übereinstimmende Lage der Resonanz- 
frequenzen. 

Versuchsweise erfolgt eine ähnliche Messung an der Nase eines Proban- 
den durchgeführt, wobei der Schall in ein Nasenloch eingekoppelt und an 
dem anderen Nasenloch erfasst wird. Hierfür sind die Schallwandler mit Ko- 
nen ausgestattet, wie in Bild llU.H zu sehen ist. Jedoch zeigen die Frequenz- 
gänge nur eine bereichsweise Ubereinstimmung mit einer entsprechenden 
Simulation |RaL02a1 IRaL02b] . was sicherlich zum Teil an den Unterschie- 
den des Nasaltrakts des Probanden zu dem der der Probandin aus der CT- 
Untersuchung liegtg, möglicherweise aber auch an einem nicht vollständig 
geschlossenen Gaumensegel während der akustischen Messung. Naturgemäß 
lassen sich auch Unvollkommenheiten in dem Datensatz selbst nicht aus- 
schließen. 
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Teil III 

SPEAK 

Wie bereits eingangs aufgezeigt, ist im Bereich der Mundhöhle der Auf- 
bau des Vokaltrakts zwar anatomisch komplexer; er besitzt jedoch eine ein- 
fachere Geometrie. Daher sollten die Untersuchungsmethoden durch finite 
Approximationen der dreidimensionalen Schallwellenausbreitung auch für 
diesen Bereich geeignet sein. Da sich die Geometrie des Vokaltrakts beim 
Sprechen schnell ändert, sind jedoch die vorgenannten tomographischen Ver- 
fahren wenig geeignet, um die Geometrie zu erfassen. 

Eine gute Alternative besteht darin, die räumliche Konfiguration des 
Sprechtraktes aus den akustischen Eigenschaften des Sprachsignals zu schät- 
zen. Dabei werden Verfahren wie in Abschnitt 14. 71 und II 1 .41 beschrieben ein- 
gesetzt, die treffende Querschnittsverläufe ergeben, wie zahlreiche Untersu- 
chungen beispielsweise in |MaG72| ILaOSl IScÜÜ] belegen. Bis dato ist eine Rei- 
he von Algorithmen entwickelt und implementiert worden, um Signale mit 
dieser Zielsetzung zu analysieren. Diese Programme verfügen jedoch über je- 
weils eigene Schnittstellen, sind in unterschiedlichen Programmiersprachen 
und für unterschiedliche Betriebssysteme verfasst, und unterscheiden sich 
zudem in ihrem Bedienkonzept. Um die daraus resultierenden Umstände 
zu vermeiden, wurden wichtige Verfahren in dem Programm „SPEAK", 
ein Akronym von Sprechakustik, verbessert und zusammengefasst. Durch 
die einheitliche und vereinfachte Bedienung sowie die Möglichkeit, an vie- 
len Stellen interaktiv einzugreifen, eignet sich dieses Programm auch in der 
Didaktik der Akustik und Phonetik. Die folgenden beiden Abschnitte zei- 
gen die Möglichkeiten dieses Programms auf und geben Beispiele für deren 
Anwendung. 

11 Analyse und Visualisierung 

Im Folgenden wird ein Uberblick über die wichtigsten Analysefunktio- 
nen und die korrespondieren Visualisierungsmöglichkeiten gegeben. Hervor- 
zuheben ist hierbei, dass diese Analysefunktionen - soweit sinnvoll - sowohl 
analytisch anhand der Polynome der Ubertragungsfunktionen als auch nu- 
merisch auf äquidistant zeitdiskretisierten Folgen arbeiten. Auch eine Kom- 
bination ist möglich, wie in dem folgenden Abschnitt 111.41 gezeigt. Für die 
numerische Untersuchung sind die Signalquellen 

- weißes Rauschen, 

- periodische Pulse mit wählbarer Frequenz, 

- ein parametrierbares, typisches Glottissignal, 

35. Einige Facetten dieser Anwendung werden anhand des Vorgängers TubeDesigner 
in [RaL03c| betrachtet. 



11. Analyse und Visualisierung 



80 



- wahlweise periodische und abtastratenkonvertierte gespeicherte Folge, 

- mit einem Mikrofon erfasster Schall 
vorgesehen. 

11.1 Zeit- und Frequenzbereich 

Im Zeitbereich kann der Signalverlauf und für Filter die Impulsantwort 
angezeigt werden; im Frequenzbereich werden neben des häufig benötigten 
Betragsgang und der Gruppenlaufzeit auch modellbasierte Analysen verwen- 
det. 

Durch eine Fast-Fourier- Transformation mit vorhergehender Fensterge- 
wi chtung können Sprachsignale im Frequenzbereich analysiert werden; zur 
Verfügung stehen Rechteck-, Dreieck-, Hamming- Fenster. Mit diesen Fen- 
sterfunktionen wird dabei zum einen der betrachtete zeitliche Abschnitt 
des Sprachsignals festgelegt. Zum anderen mildern die beiden letztgenann- 
ten Fensterfunktionen Auswirkungen der Abweichung zwischen wirklichen 
Sprachsignalen, vgl. Abschnitt 12.6t und der der Fourier- Transformation zu- 
grunde liegende hypothetische Periodizität der Signale, wie es sich durch 
Anwenden der verschiedenen Fenster in SPEAK unmittelbar zeigt. Ebenso 
ist die Analyse von Filterstrukturen möglich, hierbei kann zudem als Anre- 
gungssignal ein unkorreliertes Rauschen verwendet werden und die Darstel- 
lung des durch das Filter hervorgerufenen Betragsgang durch eine Mittelung 
in der Varianz vermindert werden, wie in Abschnitt 110.21 ausgeführt. 

Für Sprachsignale sind im Besonderen die in SPEAK integrierten mo- 
dellbasierten Analyseverfahren geeignet. Bei diesem wird durch die in den 
Abschnitten 13.31 und l4.7l behandelten Maximum-Likelihood- oder Maximum- 
Entropy- Analyse ein Pol-Modell des zugrundeliegenden Prozesses parame- 
trisiert. Die Lage der Pole wir durch eine Nullstellenbestimmung des rezi- 
proken System nach |Mu56j iterativ ermittelt und dargestellt. Wie in Bild 
111.31 zu erkennen ist, zeigt die Poldarstellung ein deutlich klareres Bild als 
die überlagerte Projektion der Pole auf den Einheitskreis, dem Betragsgang 
im Frequenzbereich. In Abschnitt [TT] ist die zugrundeliegende mathemati- 
sche Beschreibung skizziert und in Abschnitt 111.31 wird auf die in SPEAK 
hierauf aufbauenden Möglichkeiten eingegangen. 

11.2 FIR-Filter 

Filter endlicher Impulsantwort oder kurz FIR-Filter werden üblicher- 
weise in der Form i/^ = Xk_m durch hm parametrisiert, wobei m 
entsprechend auf einen endlichen Bereich beschränkt ist; Xk ist hierbei die 
Eingangsfolge und die gefilterte Ausgangsfolge. Das besondere Merkmal 
dieser Filterform ist, dass jeder Koeffizient einem Wert der Impulsantwort 
entspricht, wodurch es möglich ist, direkt eine endliche Impulsantwort vor- 
zugeben. 
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Aufgrund dieser Eigenschaft ist es beispielsweise möglich, die in den Un- 
tersuchungen aus Teil II ermittelten Impulsantworten für Transmittanz und 
Reflektanz des Nasaltraktes nach einer Abtastratenkonvertierung vollstän- 
dig zu übernehmen und über einen Dreitoradapter an ein Rohrmodell des 
übrigen Vokaltrakts anzukoppeln. Die in Abschnitt 14.81 diskutierten Abwei- 
chungen aufgrund einer vereinfachten Nachbildung durch Rohrsysteme wird 
vermieden. 

Desweiteren können diese Filter wahlweise im Zeit- und Frequenzbe- 
reich manipuliert werden, wobei der jeweils andere Bereich durch eine Fast- 
Fourier- Transformation aktualisiert wird. Bild 1 1 1 . H illustriert diese Darstel- 
lung. 



3 (Neues Filter) : Ein helts kreis 
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Bild 11.1: FIR-Filter in SPEAK. In der linken Fensterhälfte ist die Zeitbereichs-, in 
der rechten Hälfte die Frequenzbereichsdarstellung angeordnet; jeweils oben Real- 
und unten Imaginäranteil. In der interaktiven Darstellung kann jeder der vier Qua- 
dranten kann mit dem Maus-Zeiger manipuliert werden, wobei sich die Auswirkung 
in den anderen Quadranten unverzögert zeigt. Eine Beschränkung auf reelwertige 
Filter, wie sie in diesem Bild gezeigt ist, ist mittels Tastenfeld (M) möglich. 



11.3 Z-Ebene 

Die Darstellung des Ubertragungsverhaltens in der 2^-Ebene ist, wie be- 
reits angedeutet, eine über die Darstellung im Frequenzbereich hinausgehen- 
de Ansicht. Hier ist es möglich, die charakteristischen Eigenwerte des Filters 
zu zeigen, aus welchen Frequenzgang, Phasengang und Gruppenlaufzeit re- 
sultieren. Die Eigenwerte werden hierfür aus den Nullstellen des Nenner- und 
Zählerpolynoms des Filters mittels des bereits genannten Muller- Verfahrens 
in |Mu56] bestimmt sofern diese nicht bereits in einer Produktform vorliegen. 
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und durch die üblichen Symbole, Kreuze für Pole bzw. Kreise für Nullstellen, 
in der Ebene dargestellt. Um den Zusammenhang zwischen Pol- und Null- 
stellenschema in der 2^-Ebene und dem Betragsgang auf der Frequenzachse 
aufzuzeigen, kann die dreidimensionale Darstellung der Betragsfunktion auf 
der 2^-Ebene genutzt werden, wie in Bild 111.2] gezeigt. 

Umgekehrt ist es möglich, Filter durch Positionierung von Polen und 
Nullstellen in der 2^-Ebene zu definieren. Die Position wird mit der Maus 
festgelegt oder verändert, wobei die Darstellungen im Zeit- oder Frequenzbe- 
reich praktisch unverzögert folgen. Für die interne Repräsentation der Filter 
wird eine verkette Form elementarer Filter erster Ordnung für reelwertige 
Extremstellen und Filter 2. Ordnung für konjugiert komplexe Extremstel- 
len verwendet. Die ergänzend Erzeugung einer dreidimensionale Ansicht der 
Betragsfunktion in der 2^-Ebene ist dadurch besonders einfach möglich. 




Bild 11.2: Dreidimensionale Darstellung der Betragsfunktion eines Filters mit zwei 
jeweils konjugiert komplexen Polen und Nullstellen, links, und einer reellen Null- 
stelle, rechts, auf der Z-Ebene. Der Einheitskreis ist als transparenter Zylinder 
dargestellt, so dass der Schnitt der Betragsfunktion mit dem Einheitskreis, der Be- 
tragsgang, deutlich wird. 

11.4 Rohrmodell 

Die Analyse von Rohrmodellen des Sprechtraktes kann anhand von ma- 
nuell vorgegebenen Querschnittsverläufen erfolgen, wie in Bild 111.31 darge- 
stellt. Hierbei kann mit der Maus der Querschnitt jedes einzelnen Segmentes 
verändert und die Auswirkung auf bspw. Impulsantwort, Frequenzgang und 
Position der Pole betrachtet werden. Ebenso leicht ist es möglich, den Quer- 
schnittsverlauf in einem Bereich abzuändern, indem man diesen mit der 
Maus vorgibt. Anhand des Querschnittsverlaufs kann wie in Abschnitt 14.21 
das Ubertragungsverhalten des Rohrsystems analytisch bestimmt werden. 
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Bild 11.3: Darstellung eines Rohrquerschnittverlaufs ähnlich des Vokaltraktes, bei 
dem links die Glottis sitzt und rechts die Mundabstrahlung durch einen ausgepräg- 
ten Querschnittssprung realisiert ist. Darunter die Impulsantwort des entsprechen- 
den Kreuzgliedkettenfilters, rechts daneben Gruppenlaufzeit, darüber Frequenzgang 
und Darstellung der Pole in der Übertragungsfunktion auf der Z-Ebene. 



Die so erhaltene Funktion kann zudem in ihre Eigenwerte zerlegt werden, 
welche Pole in der 2^-Ebene bilden. Man erkennt auf diese Weise, wie sich die 
Pole und damit das Resonanzverhalten in Abhängigkeit dieser Bewegungen 
— teilweise überraschend — verschieben, aufteilen oder zusammenfallen. 
Man kann bspw. ersehen, welche Schwierigkeiten die frühen Formantensyn- 
thesizer (vgl. Abs. 13. 2|) gehabt haben müssen, dies nachzubilden. 

Alternativ besteht die Möglichkeit, den Vokaltrakt verlauf anhand von 
gesprochener Sprache zu ermitteln. Das kann unmittelbar durch ein an den 
Rechner angeschlossenes Mikrofon erfolgen, oder über digital aufgezeichnete 
Sprachproben. In beiden Fällen lassen sich Preemphasen schätzen oder vor- 
geben, um die spektrale Färbung durch das Abstrahlverhalten des Mundes 
und durch die Anregung aus der Glottis zu berücksichtigen. Anhand des be- 
reinigten Signals können mittels des Burg- Algorithmus oder eines neueren, 
hierfür entwickelten Verfahrens die Reflexionskoeffizienten des Rohrmodells 
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geschätzt und daraus der Querschnittsverlauf bestimmt werden. Die Darstel- 
lung des Querschnittsverlaufs erfolgt unmittelbar und ohne wahrnehmbare 
Verzögerung, so dass man beim „Hineinsprechen" seine eigene Artikulati- 
on beobachten und studieren kann. Das in |ScRL04] eingehender gezeigte, 
neuere Verfahren berechnet dabei den Querschnittsverlauf unter Beachtung 
der Schallabstrahlung nach Laine und einer uniformen Schalldämpfung. 
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12 Besonderheiten der Implementierung 

Im Folgendem werden einige Aspekte der Implementierung betrachtet, 
die sich als nützlich für die umfangreichen Funktionen des Programms her- 
ausgestellt haben. Diese Aspekte betreffen verschiedene Ebenen, angefan- 
gen bei der Systemtopologie, die den grundlegeneden Datenfluss und darauf 
einwirkende Verknüpfungselemente umfasst, bis hin zur Auswahl einer Pro- 
grammiersprache, die die Implementierung praktikabel macht. 

12.1 Systemtopologie 

Wie in dem vorangegangenen Abschnitt gezeigt, können mit SPEAK 
eine Vielzahl von Untersuchungen durchgeführt werden. Um dies nicht auf 
einzelne Systeme zu beschränken, hat SPEAK sechs Elemente, die über zwei 
Klassen von Verbindungen miteinander kombiniert werden können: 

- Signalquellen 

- Analysewerkzeuge — Signalsenken 

- Lautsprechersymbol — Signalsenken 

- Filter 

- Rohre — Kreuzgliedkettenfilter 

- Knotenpunkt — Mehrtoradaptoren 

Während Filter und die meisten Signalquellen und -senken über einen gerich- 
teten Signalfluss miteinander verbindbar sind, erfordern Rohrsysteme und 
Mehrtoradaptoren Verbindungen, die hin- und rücklaufende Größen bein- 
halten, wie in Abschnitt 14.21 ausgeführt. Damit diesen Wellengrößen eine 
physikalische Bedeutung zugemessen werden kann, enthält die bidirektiona- 
le Verbindung zudem Informationen über den Querschnitt des zugehörigen 
Rohrsegmentes, aus denen an Mehrtoradaptoren Reflektionen und Trans- 
missionen berechnet werden. 

An jeden Ausgang eines Elements können zudem ein oder mehrere Signal- 
senken oder Filter angeschlossen werden. Erstere, insbesondere die Analyse- 
werkzeuge, erlauben die Betrachtung einer oder mehrerer Signaleigenschaf- 
ten über ein komplexeres System hinweg. Mit letzteren besteht beispielwei- 
se die Möglichkeit, komplexere Abschlussbedingungen an einem Rohr oder 
Rohrsystem nachzubilden, wenn der Ausgang des Filters wieder zu dem 
Rohrsystem zurückgeführt wird. Ein anderes Beispiel ist ein Preemphasefil- 
ter zwischen Signalquelle und Rohrbeginn oder Rohrende und Signalsenke, 
um realistische Signalverhältnisse zu erzielen. 

12.2 Synthese 

Eine der für die Sprechakustik wichtigsten Funktionen ist die Signalsyn- 
these und Wiedergabe, die dieses Programm fortwährend und mit vernach- 
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Bild 12.1: Darstellung eines Rohrquerschnittverlaufs ähnlich des Vokaltraktes, bei 
dem links die Glottis sitzt und rechts die Mundabstrahlung durch einen ausgepräg- 
ten Querschnittssprung realisiert ist. Darunter die Impulsantwort des entsprechen- 
den Kreuzgliedkettenfilters, rechts daneben Gruppenlaufzeit, darüber Frequenzgang 
und Darstellung der Pole in der Ubertragungsfunktion auf der z-Ebene. 



lässigbarer Verzögerung realisieren kann. Damit kann nicht nur ein visuelles 
Feedback über die genannte mehr oder weniger abstrakte Darstellung ge- 
geben werden, sondern es wird auch eine direkt auditiv wahrnehmbare Re- 
präsentation gegeben. Das gehörte Synthesesignal beinhaltet eine Vielzahl 
von Informationen, die von dem menschlichen Gehirn auf unterschiedlichen 
Ebenen ausgewertet werden. Gerade der letztlich nur subjektiv mögliche 
Vergleich mit einer Vielzahl von gehörten Sprachäußerungen erlaubt so eine 
Beurteilung der Natürlichkeit. Des weiteren werden auch Zusammenhänge 
von Phänomenen in spektraler oder zeitlicher Darstellung, ihre Wirkung und 
ihre perzeptive Bedeutung nachvollziehbar. 
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12.3 Java 

Ein wesentlicher Schritt zu der erfolgreichen und effizienten Realisierung 
eines Programms ist die Wahl der passenden Werkzeuge. Wie eingangs er- 
wähnt waren einige der Algorithmen bereits anderweitig implementiert; ein 
gutes Beispiel ist in |Ra99] der TubeDesigner in C++. Bei dieser ursprüng- 
lichen Implementierung erweisen sich insbesondere Datenstrukturen in der 
unter C-|--|- üblichen Standard Template Library in der Implementierung 
zeitaufwendig. Darüber hinaus sind sie, wie der Name bereits andeutet, als 
Formvorlage der Sprache hinzugefügt und kein eigentliches Sprachmittel. 
Dies erschwert das sogenannte Refactoring, eine semiautomatische Restruk- 
turierung des Programms, was im Laufe der Entwicklung einer umfangrei- 
chen Software häufig erforderlich ist. Auch die Programmiersprache C, in 
der eine Reihe umfangreicherer Projekte realisiert wurden, wird aus diesem 
Gründen nicht in Erwägung gezogen, zudem unterstützt sie eine zeitgemäße 
objektorientierte Programmierung nicht. Andere Sprachen, wie etwa Delphi, 
scheiden aufgrund ihrer geringen Verbreitung aus. 

Die gewählte Programmiersprache Java besitzt die die genannten Ein- 
schränkung nicht. Insbesondere im Zusammenspiel mit der Entwicklungsum- 
gebung Eclipse zeigt sich, dass es problemlos möglich ist, ein Programm mit 
etwa 30.000 Zeilen Quelltext zu handhaben. Die Einschränkung von Java, 
keine Definitionen von Operatoren für komplexe Zahlen zu beinhalten oder 
für neue Datentypen zu erlauben, fiel nicht allzu sehr ins Gewicht, da die 
mathematischen Ausdrücke der Algorithmen nur einen geringen Anteil am 
Quelltext haben. Ebenso erweist sich die Befürchtung über ein Java inhären- 
tes Merkmal letztlich als unbegründet, dass die häufige Instanziierung von 
Daten- bzw. Objektstrukturen oder der Garbage-Collector, der deren Spei- 
cherplatz nach Gebrauch wieder freigibt, das Programm verlangsamt. Das 
Laufzeitverhalten ist durch passend gewählte und optimierte Algorithmen 
nicht beeinträchtigt. 

Als besonders leistungsfähig erweisen sich die Grafikfunktionen von Ja- 
va, welche durch durchgängiges Double Bujfering, aber auch durch passende 
Schnittstellen die Implementierung der dynamischen Benutzerschnittstel- 
len vereinfachten. Ebenso leicht ist die dreidimensionale Darstellung der 
-Z-Ebene möglich. Wichtig für die Struktur des Programms ist zudem das 
Fisitor-Schema[üäHJV94], welches eine Separation nach [Re78j von Visuali- 
sierung und Berechnung ermöglicht; dies lässt sich mit den Inner Classes von 
Java umsetzen. Letztlich erlaubt die gewählte Klassenstruktur durch Verer- 
bung eine schnelle und einfache Erweiterung, falls für andere Anwendungen 
weitere Funktionen benötigt werden. 
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Teil IV 

Akustik des Vokaltraks 

Man kann mit Finiten-Differenzen auch die Akustik des Mundhöhle und 
des Rachens vorteilhaft simulieren, wie die nachfolgenden Abschnitte zei- 
gen. Es zeigt sich das Rohrmodel und die Finiten-Differenzen bei kleinen 
Querschnittflächen hier perfekt übereinstimmen, während mit zunehmen- 
den Querschnitt mit den Finiten Differenzen Effekte erfasst werden, die 
die laterale Wellenausbreitung beeinflussen und bei einer natürlichen Quer- 
schnittskontur dann Quermoden hervorrufen. Abschließend werden verein- 
fachte Modelle gezeigt, die diese Effekte treffend berücksichtigen. 

13 Äquivalenz zwischen 

Finiten Differenzen und Kreuzgliedkettenfilter 

Eine Identität von Finiten Differenzen und Kreuzgliedketten-Filter in der 
Beschreibung der Schallausbreitung lässt sich nur bei einer eindimensionalen 
Betrachtung zeigen, da einerseits Kreuzgliedkettenfilter nur die Schallaus- 
breitung entlang einer Raumrichtung beschreiben, andererseits Finite Dif- 
ferenzen zur Beschreibung einer mehrdimensionalen Schallausbreitung Di- 
spersion aufweisen würden. 

Die Identität für den eindimensionalen Fall lässt sich analytisch gewin- 
nen. Hierfür eignet sich ein übersichtliches, aber nicht triviales akustisches 
Rohr mit drei äquidistanten Querschnittssprüngen, quantifiziert durch die 
Reflexionsfaktoren ri, r2, r^, vgl. Bild 113.11 Mit der in den Abschnitten 14.11 
- 14.61 gezeigten Betriebskettenmatrixgleichung kann man die Ubertragungs- 
funktion bestimmten. In Druckdarstellung ergibt sich die Betriebskettenma- 
trix T zu 

[O z)l+ri[ri zjl + r2[r2 ^J\0 zj 

1 / 1 r^] (z-^ 0\ 
' l + n\r^ z) 
_ 1 
~ (l+ri)(l+r2)(l+r3) 

n^s + (rir2 -I- r2r^)z^'^ + riz"^ + (r2 -|- rir2ri) + r^z^'^\ 

Tzz^ -I- (rir2r3 -|- r2) -|- r^z^"^ z^ + (rir2 -|- r2rz)z^ + rir^ j 

Die Ubertragungsfunktion H{z) ist dabei der Kehrwert des Matrixelements 
^22- Erweitert mit z~'^ gewinnt sie die übliche Form: 

^ (l+ri)(l+r2)(l+r3)z-^ 
l + (rir2 -I- r2r3) z^"^ + rir^ z^'^ 
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Bild 13.1: Schema eines Rohrabsclinitts mit drei äquidistant aufeinanderfolgenden 
Querschnittssprüngen. Oben ist die Lage der Einkopplungsstelle X und Auskopp- 
lungsstelle Y des Kreuzgliedkettenfilters gekennzeichnet, in der Mitte die Positionen 
der Bezugsgrößen po ■ ■ ■ P5 der Finiten Differenzen. Die Reflexionsfaktoren ri ■ ■ ■ 
charakterisieren die Querschnittssprünge. 



Dieses Rohr lässt sich auch eindimensional mit Finiten Differenzen be- 
schreiben. Für die unterschiedlichen Querschnitte werden die in Abschnitt [7] 
entwickelten partiellen Volumen verwendet. Es entsteht dadurch eine direk- 
te Korrespondenz zwischen den verwendeten Reflexionsfaktoren. Die Finite- 
DifFerenzen-Gleichung für partielle Volumen, das Resultat aus Abschnitt [71 
vereinfacht sich für den eindimensionalen Fall: Die schallharte Begrenzung 
senkrecht zur Schallausbreitungsrichtung x wird durch Reflexionfaktoren 
mit dem Wert 1 berücksichtigt, also r^;^^^'^ = 1, r^]y]z^'^ = 1 und somit 

Pt+l,x - '^Pt,x + Pt 

= K[{1 - rl+^)pt,x+i - (2 - - rr + (1 " • 

Mit der Stabilitätsanalyse in Abschnitt 15.61 ergibt sich durch ai = 4 und 
02 = 4iC der Stabilitätsbereich ^ 1, womit K = 1 gesetzt werden kann, 
um Dispersion zu vermeiden. Diese Gleichung lässt sich weiter bezüglich des 
zentralen Summanden und durch die gekürzte Indizierung r^~^^ = und 
entsprechend r%~^ = —r^_i = —r^-i vereinfachen, so dass 

Pt+i,x + Pt~-i,x = (1 - rx)pt,x+i - {-rx + rx-i)pt,x + (1 + rx_i)pt^x~i 
verbleibt. Diese bekommt im ^-Bereich die Form: 

zPx + z-^Px = (1 - rx)Px+i - i-Tx + rx-i)Px + (1 + rx-i)Px-i ■ 

Löst man die Gleichung nach P^ auf, ergibt sich: 

p ^ il-rx)Px+i + {l+rx-i)Px-i 
z + {-r^ + rx-i) + z-'^ 

Die reflexionsfreie Schallleitung rechtsseitig und linksseitig lässt sich durch 
absorbierende Randbedingungen nach Abschnitt 15.71 erfassen, die rechtseiti- 
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ge und spiegelbildliche linkseitige Gleichung lauten: 

Pt,X+l = Pt-l,X J 
Pt,x-l =Pt-l,X ■ 

Diese Randbedingungen haben im 2-Bereich die Form 

Px — -2 Px—1 ) 
Px = Z ^Px+l ■ 

Zur Einkopplung des Anregungssignals X wird zwischen den Elementen 
Po und Pi ein passend skalierter Druckunterschied eingeprägt, womit sich 
für das Rohr aus den gezeigten Beziehungen das Gleichungssystem 

(1 - ri)P2 + Po + 2X 

z — ri + z ^ 
(l-r2)P3 + (l+n)Pi 

z + {-r2 + n) + 
(1 - r3)P4 + (1 + r2)P2 

z + {-^3 + + 
Ps + (1 + r2)P3 

z + r3 + 
z-^Pi 

ergibt. Das zwischen P4 und P5 liegende Ausgangssignal Y{z) lässt sich 
entsprechend sich aus dem Mittelwert der beiden Größen bestimmen. Die- 
ses Gleichungssystem liefert nach sukzessivem Einsetzen und Auflösen nach 
Y [z) / X[z) die Übertragungsfunktion des Rohrsystems, 

H(z) = IM = (l+n)(l+r2)(l+r3)z-^ _ 
X{z) 1 + (rir2 + r2r3) z^^ _|_ ^^^^ ^-i 

Diese ist erwartungsgemäß identisch mit der Beschreibung des Rohrs durch 
Kreuzgliedkettenfilter. Die hier auf kurzem Weg erzielten Ergebnisse decken 
sich mit den Überlegungen in [Mc87] . bei denen hin- und rücklaufende Wel- 
len separat betrachtet werden. 



Po = 

Pi = 

P2 = 

^'3 = 

P4 = 

P^ = 
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14 Reflexionsfreier Abschluss 

Ein reflexionsfreier Abschluss ist in üblichen Modellen der Vokaltrak- 
takustik als Randbedingung zur Beschreibung des glottalen bzw. subglot- 
talen Abschlusses notwendig. Der reflexionsfreie Abschluss in der gerade 
durchgeführten Aquivalenzbetrachtung eignet sich in dortiger Form jedoch 
nur zur Beschreibung von eindimensionalen Strukturen. Im Folgenden wird 
untersucht, wie sich dieser Abschluss auf eine dreidimensionale Formulierung 
der Finiten Differenzen übertragen kann. 

Ein reflexionsfreies Verhalten lässt sich auf verschiedene Weise appro- 
ximieren. Es ist sicher naheliegend, sich an der Geometrie der Trachea zu 
orientieren und den nahezu reflexionsfreien Verlauf durch ein hinreichend 
ausgedehntes Rohr mit geringer Dämpfung wie in Abschnitt 18.21 nachzubil- 
den. Diese Herangehensweise hat jedoch den Nachteil, dass das Volumen des 
Abschlusses und damit auch der Rechenaufwand gegenüber dem des Vokal- 
trakts überwiegen. Vorteilhaft ist die Formulierung einer Randbedingung, 
die das Verhalten des Abschlusses widerspiegelt. Die zusätzlichen Rechnun- 
gen bleiben damit auf den deutlich kleineren Randbereich beschränkt. 

14.1 Anforderungen an den Operator 

Der Operator, der diese Randbedingung approximieren soll, muss nähe- 
rungsweise, d. h. bei niedrigen Frequenzen, folgende Eigenschaften haben: 

1. Er leitet den Schall mit der Geschwindigkeit c zum Rand hin. 

2. Er verändert die Schallamplitude nicht. 

Diese beiden Forderungen ergeben sich aus der ungestörten Schallleitung 
im Randbereich. Betrachtet man den Finite-Differenzen-Operator direkt ne- 
ben dem Rand-Operator, so ist es erforderlich, dass auch sein Randelement 
die senkrecht auf den Rand auftreffende, durch ihn hindurch propagierende 
Schallwelle möglichst ungestört erhält. 

Der Operator, betrachtet an dem Rand x zum Zeitpunkt t, hat drei Frei- 
heitsgrade, da einer der Koeffizienten von ^x+i,t^ ^x,t-i-, ^x,t und 
durch Normalisierung entfällt: Der Koeffizient von ^x+i,t wird gleich 1 ge- 
wählt. Die anderen Koeffizienten erhalten in der genannten Reihenfolge die 
Bezeichnungen p, o, q. Bild 114.11 illustriert die Struktur des Operators. 

14.2 KoefRzientenbestimmung 

Die Koeffizienten der allgemeinen Form 

q^x,t+i = o<^^^t+P'^x,t-i + '^x+i,t 
lassen sich anhand einer harmonischen Welle weiter eingrenzen. Wählt man 

<^x,t = a,(ü;)e*('^*-^^) 
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Bild 14.1: Struktur und Koeffizienten des absorbierenden Rand-Operators, die 
Zeitachse t ist in Blattlängsrichtung projiziert, die mit x bezeichnete Raumrichtung 
in Blattquerrichtung. Der von rechts kommende Schall hat durch die Orientierung 
des Koordinatensystems eine negative Geschwindigkeit. 

mit der orts- und frequenzabhängigen Amplitude a und setzt dieses ein, 
ergibt sich mit der Vereinfachung der Indizierung x = und der Normierung 
ao(w) = 1 

Eine weitere Vereinfachung ergibt sich durch die beiderseitige Division durch 
e*'*'*, so dass 

verbleibt. 

Aus der 1. Forderung, konstante Schall- bzw. Transportgeschwindigkeit 
c bei niedrigen Frequenzen, folgt k = ui/c für A; — )■ 0. Setzt man ersteres 
ein und entwickelt die Gleichung nach Taylor um o; = 0, ergibt sich: 

q + qiiü = + p — piu + ai(0) — ai(0)ia;/c -|- a']^(0) . 

Aus der 2. Forderung, der unveränderten Schallamplitude bei niedrigen 
Frequenzen, ergibt sich die notwendige Bedingung ai(w) = ao(w) = 1 und 
a'i{oj) = für o; = und somit 

q = o + p+l . 

Die Gleichung zuvor vereinfacht sich durch Einsetzen dieser Abhängig- 
keiten und einer beidseitigen Division durch iu zu 

q=-p-l/c , 

die Koeffizienten sind somit bis auf den freien Parameter p bestimmt. 



14. Reflexionsfreier Abschluss 



93 



14.3 Eigenschaften 

Der Operator hat nun die Form 

-{p + l/c)^>^,t+l = -{2p + 1/c + l)^>^,i + p'^:r,t-l + '^x+l,t , 

die durch die folgende Darstehung besser strukturiert wird: 
= 1/c (^>x,t+i - '^x,t) + {'^x+i,t - '^x,t) 

+p {'^x,t+l - 2^>x,t + '^x,t-l) ■ 

Die erste Zeile enthält mit ihren beiden Differenzenoperatoren erster Ord- 
nung die Diskretisierung der Transport-Differentialgleichung cf + f = 0. 
Deren Lösungen /(x -|- et) erfüllen beide Forderungen. Der Parameter p legt 
das zeitliche Zentrum der Differenzen- Approximation des Terms / fest. Mit 
p = liegt, wie aus der Gleichung ersichtlich, das Zentrum mittig zwischen 
t und t + 1, eine rechtseitige Approximation. Mit p = — l/2c ergibt sich 
= l/2c{^x,t+i - ^x,t-i) + {^x+i,t - ^x,t), eine zentrale Approximati- 
on, und mit p = -1/c ^ = l/c($^,t - ^x,t-i) + {^x+i,t - ^x,t), eine 
linksseitige Approximation. 

Betrachtet man den Operator als zeitdiskretes und -invariantes Filter, 
wobei ^x+i den Eingang und den Ausgang darstellt, ergeben sich die Ei- 
genschaften des Operators aus der Ubertragungsfunktion H des Filters. Wie 
in Bild 114.21 zu sehen, handelt es sich um ein rekursives Filter 2. Ordnung. 
Sein Ubertragungsverhalten H in der z-Ebene ist 



H{z) 



p+l/c- (2p 4- 1/c l)z-i 



Mit p = hat es beispielsweise eine Polstelle bei z = 1 -|- c und ist somit 
für Transportgeschwindigkeiten c im Intervall ] — 2, 0[ stabil, da dann die 
Polstelle im Einheitskreis liegt (Stabilitätskriterium aus Abschnitt I17|) . 
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Bild 14.2: Struktur und KoefRzienteii der Filteranalogie zum absorbierenden 
Rand-Operator. 
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Bild 14.3: Logarithmische Darstellung der Reflexionsdämpfung D bei c = l/-\/3 
für p — (linke Kurve) und p = —0, 6 (rechte Kurve), aufgetragen über den Kreis- 
frequenzbereich üj — 0..7r/2 



Die Abweichung von der gewünschten Übertragungsfunktion Ht, der 
Laufzeit r = —1/c, die durch den Zeitschritt und den Transport mit der 
Geschwindigkeit c entsteht, 

Ht{z) = z'/' , 

ergibt sich nun als Betragsquadrat der Differenzen der Ubertragungsfunktio- 
nen und ist für c = — ^/K = — 1 / \/3 in Bild 114.31 logarithmiert für zwei Pa- 
rameter p dargestellt. Man erkennt, dass sich der nutzbare Frequenzbereich 
bei p = —0, 6 gegenüber p = je nach gewünschter Reflexionsunterdrückung 
verdoppelt oder verdreifacht. Dieser beträgt bei 40 dB etwa 0, Ivr. Verwendet 
man eine andere Zielfunktion, wie die dispersionsbehaftete Wellenausbrei- 
tung aus Abschnitt 15. 4[ variiert das Ergebnis geringfügig. In Bild ll4.4] ist eine 
Simulation im Zeitbereich gezeigt, die die Dämpfungseigenschaft in einem 
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Bild 14.4: Vergleich der logarithmierten Betragsgänge zweier Rohre. Die kamm- 
artig deutlich sichtbaren Eigenresonanzen bei einem schallharten Abschluss, grau, 
werden bei einem absorbierenden Abschluss, schwarz dargestellt, fast vollständig 
unterdrückt. Der Ordinatenbereich umfasst 160 dB; das „Grundrauschen" lässt sich 
auf die Quantisierung der verwendeten 24 Bit-Gleitkommamantisse zurückführen. 
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Bild 14.5: Vergleich der logarithmierten Betragsgänge eines Rohrmodells mit den 
durch die Reflexionsfaktoren ri = —1, r2 = 1/2 und — —1/2 charakterisierten 
äquidistanten Querschnittssprüngen, grau, mit einer Finite-DifFerenzen-Simulation 
mit den entsprechenden Querschnittsflächen 1, 1/3 und 1 bei einer exemplarischen 
Rohrlänge von jeweils 24, schwarz dargestellt. Die Verläufe stimmen nahezu perfekt 
überein, nur bei genauer Betrachtung erkennt man eine winzige, aus der inversen 
Filterung rührende Abweichung bei a; = 0. Die hohe Genauigkeit der Uberein- 
stimmung ergibt sich aus Rohrlänge. Erlaubt man rechtsseitig eine Frequenzab- 
weichung von 1%, kann die Rohr länge nach Abschnitt 15.61 auf jeweils 6 reduziert 
werden. Die Abszissenskalierung bezieht sich auf die Systemfunktion des Rohrmo- 
dells H ^[1- _ iz-4]-i mit z = e^". 

breiten Frequenzbereich bestätigt: Die Betragsgänge zweier einseitig offener 
(r = —1) Rohre mit Einheitsquerschnittsffäche und einer exemplarischen 
Länge von 72 werden für den reflektierenden und den diskutierten absorbie- 
renden Abschluss auf der Gegenseite verglichen. Als Systemantwort y wird 
der Signal verlauf direkt vor dem schallweichen Abschluss aufgezeichnet. Der 
schallweiche Abschluss bewirkt eine entgegengesetzte Schallwelle, die zu ei- 
ner Interferenz führt, welche durch eine inverse Filterung in Form einer In- 
tegration des Zeitsignals kompensiert wird. Die Simulation umfasst 2^^ Zeit- 
schritte, die durch eine Fouriertransfomation in den Frequenzbereich über- 
tragen werden. Mit einem ausgeprägten Kaiser-Fenster nach |Ka74) . ß = 15, 
werden dabei Blockgrenzeffekte praktisch gänzlich vermieden. Das Fenster 
bewirkt jedoch eine schwache Gewichtung der anfänglichen Impulsantwort, 
weshalb die Ubertragungsfunktion des absorbierenden Rohres einen niedri- 
geren Pegel aufweist. 

Die gerade betrachtete Struktur stimmt mit der üblichen Rohrkonfigu- 
ration zur Modellierung des Vokaltrakts überein, die einerseits mit einem 
schallweichen Abschluss die Schallabstrahlung am Mund beschreibt und an- 
dererseits mit einem nicht reflektierenden bzw. absorbierenden Abschluss 
den subglottalen Bereich nachbildet. Das Ergebnis einer nicht minder re- 
levanten Simulation an dieser Struktur zeigt Bild 114.5t Die Genauigkeit 
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der Berechnung von Resonanzen bei variierenden Rohrquerschnittsflächen- 
inhalten. Das zuvor in Abschnitt [13] diskutierte Rohrmodell mit 3 Quer- 
schnittssprüngen wird als Referenz verwendet und mit dem Betragsgang 
einer Finite-DiflFerenzen-Simulation verglichen. Es zeigt sich, dass auch für 
eine dreidimensionale, mit Dispersion behaftete Formulierung der Finite- 
Differenzen eine praktisch perfekte Ubereinstimmung erzielt wird. Da die 
Impulsantwort in den 2^^ Zeitschritten der Simulation schnell abfällt, ist 
eine Fensterfunktion zudem nicht erforderlich. 

14.4 Perfectly Matched Layers 

Wenngleich der gefundene Operator bereits gute Resultate liefert, sei 
abschließend noch eine weitere Verbesserungsmöglichkeit angesprochen. Bei 
den sogenannten Perfectly Matched -LayersjBeMl IKaTT94] wird in einer 
Schicht nur eine endliche Dämpfung erzielt und der absorbierende Rand 
durch eine hinreichend große Anzahl von Schichten angenähert. Eine Schall- 
reflexion beim Eintritt und innerhalb dieser Schichten wird durch gleiche 
Schallkennimpedanz vermieden. 
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15 Anwendung am Beispiel eines Laterallauts 

In diesem Abschnitt werden mit den vorangegangenen Überlegungen 
Akustiken des realitätsnahen Vokaltrakts untersucht. Auch hier wird ein 
Vergleich zu einer eindimensionalen Schallausbreitung in einem Rohrmodell 
gezogen und die zusätzlichen Erkenntnisse betrachtet, die man durch ei- 
ne dreidimensionale Berechnung der Schallausbreitung gewinnt. Interessant 
sind hierfür insbesondere Vokaltraktkonfigurationen für Laute, bei denen 
der Vokaltrakt stark von der für Rohrmodelle in Abschnitt 14.11 verwende- 
ten Hypothese eines runden Querschnitts abweicht und sich im Sprachfre- 
quenzbereich Quermoden bilden können. Wenngleich das bereits, wie in Ab- 
schnitt EU] gezeigt, bei dem Vokal /a/ auftritt, ist es naheliegend, dass der 
Effekt aufgrund des höheren Aspektverhältnisses von Weite zu Höhe des 
Vokaltraktquerschnitts bei Approximanten und Laterallauten ausgeprägter 
ist. 

Um auf bestehende MRT- Aufnahmen zurückgreifen zu können, wird ei- 
ne Kontur des Laterallauts [1] verwendet, die in [ZhEWT03] publiziert ist. 
Von der Betrachtung und Nachbildung der für Laterallaute typischen Auf- 
spaltung der Schallausbreitung um den vorderen Zungenbereich wird dabei 
abgesehen, um die hiervon hervorgerufenen Effekte|fj nicht mit denen zu 
vermischen, die für eine Mehrzahl von Lautklassen erheblich sind. 

Es zeigt sich, dass die Auswirkung auf das Spektrum von separaten Ef- 
fekten herrührt, die im Folgenden in zwei Schritten betrachtet werden. 

15.1 Natürlicher Flächeninhalt 

Der Übergang von kleinen Querschnittsflächeninhalten zu natürlichen 
Flächeninhalten wird schrittweise an einer runden Querschnittskontur vor- 
genommen, vgl. Bild 115. 1[ Auf diese Weise ergeben sich graduelle Verände- 
rungen der Übertragungsfunktion, die sich bestimmten akustischen Effekten 
zuordnen lassen. Bild 115.21 zeigt die Ergebnisse. 

Für kleine laterale Ausdehnungen ergibt sich eine sehr gute Übereinstim- 
mung mit der Übertragungsfunktion der Kreuzgliedkettenfilter des Rohrmo- 
dells. Die immer bessere Übereinstimmung bei abnehmender lateraler Aus- 
dehnung hat sich bei einer Reihe weiterer Simulationen bestätigt. Dieser 
erwartungsgemäße Befund resultiert aus der für diesen Fall guten Appro- 
ximation der Schallwellenausbreitung durch das Rohrmodell, das als eindi- 
mensionaler Wellenleiter für geringe laterale Ausdehnung adäquat ist. 

Eine deutliche Abweichung tritt mit zunehmender lateraler Ausdehnung 
auf, insbesondere bei der ausgeprägtesten Resonanz um 2 kHz. Eine wei- 
tere Untersuchung mit sowohl verdoppelter lateraler Ausdehnung als auch 

36. Die Effekte aus der bereiclisweisen Aufspaltung der Schallpassage im Vokaltrakt sind 
u. a. in fZliEWTOS erörtert. Sie äußern sich in Nullstellen im Schallsignal, wie sie auch 
in Bild 12.41 als Vertiefung im Frequenzgang zu erkennen sind. 
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Bild 15.1: Durch ein Rohrmodell approximierter Querschnittsverlauf des Vokal- 
trakts (Glottis links, hervorgehoben) während der Artikulation des Lauts [1]. Der 
Querschnittsverlauf in Speak ist anhand des Sprachsignals aus Abschnitt 12.61 un- 
ter Anwendung einer zweifachen, adaptiven Preemphase und der Burg-Methode 
berechnet. Das Rohrmodell hat eine Länge von 19 cm und einen Durchmesser 
von 3,6 cm bei einer hypothetischen runden Querschnittskontur. Das Verhältnis 
von Querschnittsflächeninhalt zu Rohrlänge entstammt den MRT- Aufnahmen aus 
[ZhEWTÖ3] . wobei auch der gesamte Querschnittsverlauf mit diesen Aufnahmen 
gut übereinstimmt. 

verdoppelter Rohrsegmentlänge weist praktisch keinen Unterschied zu dem 
in Bild 115.2] oben gezeigten Betragsgang, grenzt andere Abhängigkeiten aus 
und bestätigt den Zusammenhang zwischen Resonanzverschiebung und Aus- 
dehnungs-Längen-Verhältnis. Diese Resonanzverschiebung lässt sich mit ei- 
ner Mündungskorrektur nach |Col860| IMo02| IMÜM03] erklären, wie sie an 
Impedanz- bzw. Querschnittsflächensprüngen auftritt, die hier innerhalb des 
Rohres eine Resonanz bewirken. Eine beispielhafte Berechnung verdeutlicht 
dies: Ausgehend von einer engen, sich rasch erweiternden Querschnittsfläche, 
wie sie in Bild ll5.1] an siebter Stelle von rechts zu flnden ist, die einen Durch- 
messer d von rund 1 cm aufweist und einer effektiven Resonanzrohrlänge l 
von 3,5 cm für einen A/4-Resonator mit einer Resonanzfrequenz von 2,4 kHz, 
lassen sich Größenordnung und Relevanz der Resonanzverschiebung mit der 
Formel AI = |(i von Cavaille-CoU abschätzen: der korrigierte Resonator hat 
eine Länge von 5,2 cm und eine Resonanz bei 1,7 kHz. Selbige Abschätzung 
gilt auch für einen A/2-Resonator, der die doppelte effektive Länge aufweist, 
aber auch eine zweiseitige Mündungskorrektur bedingt. Experimentell wird 
dieser Effekte für Rohrsysteme in jSc90j bestätigt. 

Die Pol-Nullstellenkombination bei etwas über 6 kHz korrespondiert of- 
fensichtlich mit der in Abschnitt 14.11 notierten Radialmode. Eine exakte 
Ubereinstimmung der Frequenz mit der Zylinder- oder Kugelmode ist nicht 
zu erwarten, da die Mundhöhle von beiden geometrischen Idealen abweicht. 
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Bild 15.2: Vergleich von Betragsgängen des Vokaltrakts, bestimmt durch Fini- 
te Differenzen und durch ein Rohrmodell-Kreuzgliedkettenfilter. Die obere Kur- 
ve zeigt das Ergebnis der FD-Simulation für zylindrische Rohrsegmente gemäß 
Bild 115.11 deren (maximale) Querschnittsfläche Am und Länge l mit den MRI- 
Untersuchungen in Bild ?? übereinstimmt, \/ Am/l = 0,17; die Kurven darunter 
zeigen FD-Simulationen mit verringertem Verhältnis der lateralen Ausdehnung zur 
Länge, sfÄ^jl = 0,068 und 0,007. Deutlich tritt die sich mit zunehmenden Quer- 
schnittsverhältnis von 2,4 kHz auf 2,1 kHz verschiebende Resonanz hervor, sowie 
die bei 6,7 kHz hinzukommende Pol-Nullstellenkombination. Zum Vergleich ist der 
Betragsgang des Rohrmodells aus Bild l4.5l gezeigt. der sich merklich nur in der etwas 
höheren Frequenz der ausgeprägtesten Resonanz bei 2,4 kHz und in Folge davon im 
niederfrequentere Betragsgang geringfügig unterhalb und im höherfrequenteren ge- 
ringfügig oberhalb liegenden Kurvenverlauf von der Finite-Differenzen-Simulation 
mit kleinem Querschnittsverhältnis unterscheidet. 

15.2 Querschnittsform 

Die beim Ubergang von einer runden zu einer natürlichen Querschnitts- 
form auftretende Veränderung des Resonanzschemas ist im Bild 115.31 zu se- 
hen. Die vom Verlauf des Querschnittsflächeninhalts hervorgerufenen Längs- 
moden bleiben in weiten Bereichen nahezu unverändert. Die geringen Ver- 
schiebungen der Resonanzen bei 5,8 kHz und 6,9 kHz zu höheren Frequenzen 
lässt sich durch eine aufgrund der Querschnittsform abgeschwächte Mün- 
dungskorrektur erklären, wie in |In53] untersucht. 

Auffällig sind die starken Abweichungen im Bereich zwischen 3 und 5 
kHz, die aus der Veränderung der Querschnittsform herrühren. Auch hier- 
bei handelt es sich augenscheinlich um Pol-Nullstellenkombinationen aus 
Quermoden, deren niedrige Frequenzen sich aus der großen lateralen Aus- 
dehnung des Querschnitts ergeben: Geht man schrittweise von der runden 
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Bild 15.3: Vergleich von Betragsgängen der Vokaltrakt konfiguration mit einer run- 
den Querschnittskontur, grau, und einer aus MRT gewonnenen Querschnittskontur, 
schwarz. Beide weisen bereichsweise Übereinstimmung auf, so ist der Verlauf bis 
über die Resonanz bei 1,3 kHz hinweg praktisch identisch und die Resonanzen bei 
2,1 kHz, 5,8 kHz und 6,9 kHz sind in Frequenz und Güte nur wenig verändert. Im 
Frequenzbereich zwischen 3 und 5 kHz zeigen sich hingegen deutlich Unterschiede. 

Querschnittsform zu einer zunehmend langgezogenen Ellipse über, bis die- 
se die durch MRI bestimmte Querschnittsform approximiert, kann man den 
Verlauf der Resonanzen und Nullstellen verfolgen und die Extrempunkte zu- 
ordnen. So spaltet sich die Pol- und Nullstellenkombination bei 6,7 kHz in 
ein Paar auf, dass offensichtlich mit einer vertikalen und horizontalen Mode 
korrespondiert: Mit zunehmender Exzentrizität der Ellipse und entsprechend 
zunehmender lateraler Breite verringert sich die Resonanzfrequenz der einen 
Kombination bis hinab zu 3 kHz, die andere verschiebt sich zu größeren 
Frequenzen mit abnehmender Resonatorhöhe. In gleicher Weise gelangt ei- 
ne ausgeprägte Nullstelle aus einer höherfrequenten Mode des runden Rohrs 
von 12 kHz hinunter zu 3,5 kHz. Diese niedrigen Resonanzen haben auch eine 
Auswirkung auf darunterliegende Längsresonanzen. Sie verursachen durch 
eine zusätzliche Laufzeit eine effektive Verlängerung des akustischen Wegs 
und damit eine Reduzierung der Resonanzfrequenz der Längsmoden, wie sie 
bei 2 kHz zu beobachten ist. 

Diese Effekte treten auch bei Vokalen auf, eine Mehrzahl von ihnen kann 
auch mittels Finite-Elemente-Modells nachgewiesen werden. So hat bereits 
Bild ?? die komplexe Modenstruktur gezeigt. Die zugehörige Publikation 
geht insbesondere auf die Pol-Nullstellen- Komplexe ein, die in sehr ähnli- 
cher Form — wenn auch bei etwas höheren Frequenzen — in der dort un- 
tersuchten Vokalkonfiguration des Sprechtrakts auftreten. Speziell für den 



15. Anwendung am Beispiel eines Laterallauts 



101 



hier betrachteten Laterahaut [1] ist die gute Übereinstimmung der ausge- 
prägten Nuhstelle bei 3,5 kHz mit dem Spektrum des Sprachsignals be- 
merkenswert. Die NuUstehe, die auch von der Resonanzschätzung nicht er- 
fasst wird, vgL Bild 14.5t deckt sich wesentlich besser mit dem Sprachsignal- 
spektrum, als es die sonst herangezogenen, von der Laterallaut-typischen 
ringförmigen Aufspaltung hervorgerufenen Nullstellen tun. Für diese Ring- 
Antiresonanzen, die stark von einer willkürlichen Rechts-Links- Asymmetrie 
beeinflusst sind, werden in |ZhEWT03j beispielsweise Frequenzen von 2,4 
kHz und 4,2 kHz genannt. Auch in dem dort gezeigten Sprachspektrum tre- 
ten die Frequenzen nicht deutlich als Antiresonanzen hervor. 

15.3 Dimensionalität 

Bei der Lösung des inversen Problems, aus einem Sprachsignal die erzeu- 
gende Vokaltraktkonfiguration zu schätzen, sind Modelle mit einer möglichst 
kleinen Parameteranzahl gewünscht, wie in Abschnitt 14.71 diskutiert. Moti- 
viert durch die erfolgreiche Verwendung des elliptischen Querschnitts zur 
Klärung der Resonanzeigenschaften wird abschließend betrachtet, wie gut 
sich das aus der Querschnittsform resultierende Betragsspektrum durch ein 
vereinfachtes Modell approximieren lässt, dessen longitudinaler Verlauf des 
Querschnittsflächeninhalts vorgegeben ist und dessen laterale Querschnitts- 
kontur nur durch einen Parameter, die Exzentrizität, beschrieben wird. Das 
Ergebnis ist in Bild 115.41 gezeigt. Mit Ausnahme von nur einer Resonanzfre- 
quenz, die um 5% Prozent verschoben ist, ergibt sich eine sehr gute Uber- 
einstimmung. 

Insbesondere für iterativ arbeitende Algorithmen für inverse Probleme 
und die dafür erforderliche vielmalige Bestimmung des Betragsspektrums ist 
eine möglichst einfache, mit geringem Aufwand verbundene Berechnung vor- 
teilhaft. Es sei deshalb abschließend noch auf eine diese Vorteile realisierende 
Beschreibung hingewiesen, die sich aus dem Formalismus der partiellen Vo- 
lumen ergibt. Die Approximation durch Ellipsen mit deutlicher Exzentrität 
und die in dem Abschnitt zuvor gefundene Aufspaltung der Resonanzen, 
von denen offenbar nur die Horizontalmoden in dem hier betrachteten Fre- 
quenzbereich relevant sind, legt eine zweidimensionale Beschreibung des Vo- 
kaltrakts mit Finiten Differenzen nahe. Die Fläche liegt dabei senkrecht zur 
Sagittalebene und folgt der Trajektorie des Vokaltrakts, ist also im vorderen 
Mundbereich näherungsweise horizontal. Die senkrechten Luftsäulen über 
jedem Flächenelement werden als partielle Volumen kodiert, wobei die „Fül- 
lung" X «''Uf eine größte oder größtmögliche Luftsäule bezogen wird. Durch 
den Verbleib nur einer Schicht, dem für zwei Dimensionen größeren Wert für 
K sowie den vereinfachten Differenzenoperator ergibt sich eine Laufzeitver- 
besserung der numerischen Simulation von ein bis zwei Größenordnungen. 




Bild 15.4: Vergleich von Betragsgängen der Vokaltraktkonfiguration mit einer 
elliptischen Querschnittskontur, schwarz, und einer aus MRT gewonnenen Quer- 
schnittskontur, grau. Die Verläufe stimmen gut überein. Eine nennenswerte Abwei- 
chung tritt nur bei der 4,8 kHz-Resonanz auf und beträgt weniger als 5%. Die Pro- 
portion der Ellipse \/Ä/b — 0,34 unterscheidet sich leicht von der des MR-Schnittes, 
0,38. 

Zusammenfassung 

In dieser Arbeit werden verschiedene Methoden zur Untersuchung der 
Akustik des Sprechtrakts gezeigt und exemplarisch auf bestimmte Laute 
geeigneter Lautklassen angewendet. Dabei wird das bekannte Rohrmodell 
mit der Finite-DifFerenzen-Methode im Zeitbereich zu einem eigenen neuen 
Modell für den Sprechtrakt zusammengeführt. 

Die Entwicklungsgeschichte der akustischen Modelle des Sprechtrakts 
wird in dieser Arbeit eingehend betrachtet; dabei werden wichtige bekannte 
und auch weniger bekannte, relevante Untersuchungen auf diesem Gebiet 
erörtert. Diese Betrachtung gibt einen Uber blick über die akustischen Pro- 
zesse des Sprechens und zeigt im Besonderen einen ungebrochener Trend, 
dass jede substantielle Verfeinerung des akustischen Sprechtraktmodells we- 
sentliche neue Erkenntnisse erbringt. Die essentiellsten Fortschritte erge- 
ben sich beim Ubergang von dem Resonatormodell einzelner Resonanzen 
|Krl78H IPV1783] zu den Rohranalogien des Sprechtrakts, zuerst bei der 
Reproduktion von Lauten anhand von Verläufen der Querschnittsflächenin- 
halte aus Röntgenaufnahmen |Du50| IKeL 62] , kurz darauf bei der Analyse des 
gesamten Resonanzspektrums aus Sprachsignalen. Diesen Trend fortführend 
wird durch eine Reihe von Modellen die Schallausbreitung dreidimensional 
im Sprechtrakt oder in Bereichen des Sprechtrakts erfasst. Uberwiegend sind 
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das Finite-Elemente-Methoden, seltener erweiterte Rohrmodelle und Wave- 
Guide-Meshes. Die Diskussion in Abschnitt I3.4l zeigt Vorteile der ersten bei- 
den Herangehens weisen, die akkurate Nachbildung der Akustik, aber auch 
die spezifischen Nachteile aller drei Modelle auf. 

Die im Rahmen dieser Arbeit entwickelte Modellierung des Sprechtrakts 
vereint die Vorteile von Finiten-DifFerenzen mit den Vorzügen des Rohrmo- 
dells: die Charakterisierung von Sektionen durch deren akustische Impedanz, 
bei der die darüber hinausgehende Gestalt einzelner Sektionen unberück- 
sichtigt bleibt. Diese hier als partielle Volumen bezeichneten Sektionen!^ 
korrespondieren direkt mit den Voxeln tomographischer Datensätze. Schall- 
absorption durch die prominente Wechselwirkung mit den Hohlraumrändern 
des Sprechtrakts wird durch eine Nachbildung der linearen Grenzschicht- 
prozesse an den Rändern Rechnung getragen. Hierbei zeigt sich, dass diese 
einfache phänomenologische Nachbildung ohne bedeutenden Mehraufwand 
in die Formulierung der FDTD integriert werden kann, und dass sie für 
typische Querschnittsflächen gut mit Literaturwerten übereinstimmt. 

Die in dieser Arbeit geschaffene unmittelbare Korrespondenz zwischen 
der Datenstruktur der Finiten Differenzen und den Voxeln erlaubt die direk- 
te Übernahme verschiedener tomographischer Untersuchungsmethoden. Zur 
Untersuchung der Akustik des Nasaltrakts werden in dieser Arbeit drei ver- 
schiedene tomographische Verfahren miteinander verglichen: Kryosektionen, 
Kernspinresonanztomographie und die röntgenabsorptionsbasierte Compu- 
tertomographie. Die Computertomographie zeichnet sich dabei als das mit 
Abstand vorteilhafteste Verfahren hinsichtlich Auflösung und Artefaktfrei- 
heit aus, um die filigranen geometrischen Strukturen des Nasaltrakts zu 
erfassen. Die akustische Impedanz jedes Voxels wird aus der Röntgendichte 
durch eine lineare Gleichung bestimmt, womit der gesamte Informationsge- 
halt der Computertomographie übernommen und genutzt wird. 

Die gefundenen akustischen Eigenschaften des Nasaltrakts lassen sich 
mit einem Vergleich zu bereits veröffentlichten akustischen Untersuchungen 
verifizieren, beispielsweise anhand von Resonanzfrequenzen von Nasenne- 
benhöhlen. Für eine über die bereits im Vorfeld dieser Arbeit durchgeführtw 
punktuelle Betrachtung hinausgehende akustische Untersuchung wird in die- 
ser Arbeit ein eigenes Messverfahren entwickelt: Mit der Verwendung von 
kapazitiven Schallwandlern gelingt die Erzeugung präziser Schallpegel mit 
bekannter Quellimpedanz. Die inhärent geringen Schallpegel dieser Wandler 
werden mittels eines PC-basierten Messsystems ausgeglichen, das mit einem 
hierfür modifizierten Betriebssystem Einzelmessungen phasenstarr akkumu- 
liert. Dieses sehr kompakte Messsystem (verglichen mit zuvor bekannten, 
Bild ??) liefert eine bereichsweise Ubereinstimmung des Ubertragungsver- 
haltens mit der Simulation; ein erwartungsgemäßes Ergebnis, da akustische 
Messung und tomographische Untersuchung nicht an den gleichen Proban- 
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den durchgeführt werden konnte. 

Zur Untersuchung und Demonstration von akustischen Sachverhalten 
auch über den Nasaltrakt hinaus wurde im Rahmen dieser Arbeit das Pro- 
gramm Speak geschaffen. Speak bietet zahlreiche Signalquellen, Filterty- 
pen und Analysemöglichkeiten, die frei kombinier bar sind. So wird gezeigt, 
wie man damit einfache und verzweigte Rohrmodelle des Sprechtrakts bilden 
kann, wie man die mittels Finiten Differenzen berechneten, Transmittanz 
und Impedanz des Nasaltrakts beschreibenden Impulsantworten mit einem 
Rohrmodell des Vokaltrakts kombinieren kann, und wie man ein Rohrmodell 
des Sprechtrakts anhand von Sprachsignalen parametrisiert. Letzteres ist 
insbesondere nützlich für eine Modellierung des zeitvariablen Sprechtraktbe- 
reichs, der Mundhöhle. Durch die implementierten Entropiemaximierungs- 
und Partial-Correlation-Methode sowie mit einem erweiterten Verfahren, 
welches Dämpfung und Abstrahlung des Vokaltrakts mit einbezieht, wird 
der relative Querschnittsverlauf eines Rohrmodells bestimmt. Aus diesem 
wird der absolute Querschnittsverlauf durch Skalierung anhand einer Quer- 
schnittsfläche aus einer MRI-Untersuchung gewonnen. Auf diese Weise wird 
zum einen ein Referenz-Rohrmodell mit bekannter Akustik, zum anderen ein 
geometrisches Modell für die weitere Untersuchung durch Finite Differenzen 
bestimmt. 

Durch den Bezug auf die Akustik einer einfachen Rohranalogie gelingt 
in dieser Arbeit sowohl die wechselseitige Verifikation beider Modelle bei 
kleinen Querschnittsflächen als auch eine Quantifizierung der Vorteile der 
dreidimensionalen Betrachtung der Schallausbreitung in der Mundhöhle bei 
natürlichen Querschnittsflächen. Einzelne Formanten verschieben sich durch 
den Ubergang auf natürliche Flächeninhalte um bis zu 20 % in der Reso- 
nanzfrequenz. Diese Untersuchungen der Mundhöhle werden in perfekter 
Weise durch Ergebnisse akustischer Untersuchungen in [TaMKlÖ] bestätigt: 
Die dort durchgeführten aufwendigen Messungen zeigen eine ausgezeichnete 
Ubereinstimmung bereits zu einer einfacheren für Vokale nutzbare FDTD- 
Simulation. 

Das in dieser Arbeit entwickelte Modell zur Beschreibung des Sprech- 
trakts eignet sich für die meisten Lautklassen, wie exemplarische Untersu- 
chungen zeigen. Die partiellen Volumen erfassen physikalisch treffend die 
Akustik von Strukturen des Nasaltrakts, die für die Entstehung der Nasa- 
le ([m], [n], [q]) und der nasalierten Vokale wesentlich sind. Die Artikula- 
tionsgeometrie und Akustik des Lateralapproximanten [1] wird eingehend 
betrachtet. Die gewonnenen Erkenntnisse lassen sich auf die einfachere Geo- 
metrie der Approximanten ([j] etc.) und, wie auch im Vergleich mit |Mo02] 
deutlich wird, auf die Artikulation der Vokale übertragen. Unbenommen 
ist auch die Ubertragbarkeit auf Diphthonge und Plosive oder - genereller 
- auf zeitvariable Vokaltraktkonfigurationen durch Verzicht auf eine zeit- 
unabhängige Darstellung. Gerade die kleinen Zeitschritte der Zeitbereichs- 
betrachtung und die daraus folgenden kleinen Schritte in der Geometrieän- 
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derung lassen für diesen hier nicht näher untersuchten Fall eine Überein- 
stimmung zwischen natürlicher Akustik und Modell erwarten. 

Es wird in dieser Arbeit zudem eine Reihe von effektiven Vereinfachun- 
gen gezeigt, die den Rechenaufwand und die Ausführungsgeschwindigkeit 
der erweiterten FDTD-Modelle verbessern. Grundlegend und essentiell sind 
in der Anfangsphase dieser Arbeit Optimierungen hinsichtlich einer paralle- 
lisierten Ausführbarkeit über mehrere Prozessoren hinweg und zur Reduzie- 
rung der Rechenzeit jedes einzelnen Thread. Die damit möglich gewordene 
Berechnung „über Nacht" beschleunigt auch die Weiterentwicklung des Mo- 
dells erheblich — mittlerweile sind mit diesen und weiteren Fortschritten 
Berechnungen der Impulsantworten in wenigen Minuten möglich. 

Bedeutsamer als diese eher praktische Sicht ist für die Untersuchung 
der Sprechtraktakustik eine Betrachtung von Möglichkeiten, das Modell an 
sich zu vereinfachen. Wie in dieser Arbeit ausgeführt wird, heben diese Ver- 
einfachungen wesentliche Merkmale der Sprechtraktakustik hervor, solange 
weiterhin eine gute Übereinstimmung des akustischen Verhaltens bestehen 
bleibt. Basierend auf diesem Kriterium zeigt sich, dass für den pharyngal- 
oralen Bereich Skalierung des Querschnittsflächeninhalt und Exzentrität ei- 
ner elliptischen Kontur zusätzlich zu dem relativer Querschnittsverlauf wich- 
tige Merkmale sind. Mit diesen beiden weiter Merkmalen vergrößert sich 
der Parametersatz, der bereits bei einem einfachen Rohrmodell typischer- 
weise mehr als 10 Parameter für den relativen Querschnittsverlauf umfasst, 
nicht erheblich und das Modell bleibt gängigen Schätzverfahren zur Bestim- 
mung dieser Parameter aus dem Sprachsignal zugänglich. Insbesondere für 
eine Anwendung von iterativen Verfahren ist zudem ein weiter vereinfachtes, 
zweidimensionales Modell gezeigt; die damit erreichbare nochmalige Redu- 
zierung des Berechnungsaufwandes ebnet den Weg für deren Anwendung 
trotz der für diese Verfahren erforderlichen mehrfachen Berechnung des 
Übertragungsverhaltens — und somit für eine akustisch und geometrisch 
treffende Bestimmung der Vokaltraktkonfiguration aus Sprachsignalen. 

Im Ergebnis erweist sich das in dieser Arbeit entwickelte Verfahren der 
erweiterten Finiten Differenzen im Zeitbereich für die Untersuchung der 
Akustik des Sprechtrakts sowohl für den Nasal-Bereich als auch für Mund- 
höhle und Pharynx als gut geeignet. Es ist einfach und flexibel zu handha- 
ben, bildet mit hoher Genauigkeit die akustischen Prozesse nach und kann 
zur Beantwortung einer Reihe von Fragestellungen verwendet werden, wie 
sie in dieser Arbeit exemplarisch gezeigt sind und durch hierfür entwickelte 
Messmethoden untermauert werden. 
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16 M M. de Milli, le Roy, Lavoisier, Laplace, Fer- 
rier et Vicq d'azir ont rendu Compte des deux 
tetes parlantes de M. l'abbe Mical 

1 L'examen des machines de ce genre est curieux parceque, faites pour 
imiter la nature dans la prononciation des sons, 2 elles peuvent aussi jetter 
quelques yeux sur le mecanisme de la voix. Nous avons donc considcrc dans 
le plus grand detail toutes 3 les pieces de la machine dont-il s'agit. M. l'abbe 
Mical a eu la complaisance de les dementer devant nous. II a meme permis 
4 que nous infissions une courte description : II desire seulemcnt que le compte 
que nous allons curendre ne soit point publie, au moins 5 Sans Son aveu ; et 
nous avons cru pouvoir prendre cet engagement avec lui au nom de l'aca- 
demie. Tous les mouvents de la e machine sont disposes de maniere ä faire 
prononcer par deux totes, comme en dialogant les deux phrases suivantes. 
7 Le Roi a donnc la paix ä L'Europc. La paix fait le bonheur des pcuplcs. 
Avant d 'aller plus loin, nous croyons devoir s dire que ces deux phrases ne 
sont pas prononcees distinctement dans toutes leurs parties ; Surtout la der- 
niere : ce qui tient sans doutc(ant) 9 que le sonds de la voix produite par 
cette machine est tres diffcrcnt de la voix humaine ; ä ce que certaines Syl- 
labes resultant de la 10 combinaison de plusieurs Sons, leuer reunion ne se 
fait pas avec toute la precision possible ; Et aussi ä ce que la prononciation 
de plusieures 11 consonncs a besoin encore d'etre perfectionnce. Malgre ces 
dcfauts que M. l'abbe Mical lui meme ne se dissesseule pas, Ic mcchanisme 
de 12 cette machine nous a paru interessant. On peut y considerer deux par- 
ties tres differentes. P. Une chambre ä vent, dans laquelle un soufRet 13 porte 
l'air et de laqucllc cc fluide s'cchappc lorsquc differentes soupapes s'elevent. 
L'air est alors dirigc par des conduits vers les cavites, i4 ou il est modific, 
et ou il devient fondre. T^. Un cylindre qui ucent des leviers, et qui leuer 
donne l'impulsion necessaire, soit pour lever a 15 propos les soupapes de la 
chambre ä vent, soit pour donner aux differentes cavites oü le son se modifie 
les formcs nccessaires a ses diverses le changcmens. Nous decrirons sommai- 
rement chacune des parties de la machine. Le Soufflet, la chambre ä vent, 
les soupapes qui ferment les conduits, 17 et les condiuits eux-memes n'ont 
ricn de particulier. Leur Structure est la memo quo ccllc que l'on observe 
dans les is orgues. Les cavites on [en ?] boites dans Icsquelles le son est mo- 
difie meritent une attention plus particuliere. Toutes ces boites sont formees 
19 dans leuer partie inferieure par une cloison au Diaphragme tres tendue, 
forme d'une peau tres fine, situee horizontalement au milieu 20 de laquelle 
est un trou ellyptique, qui repond au conduit ä vent, et se trouve place im- 
mediatement au dessus. Cette ouverture est recouvert 21 par une languette, 
dont une des extremites est attachee ä un des points de la circonference de 
la Boite, tandi que l'a.t.. qui depasse une 22 peuletruce, peut vibrer lorsque 
l'air du tuyau ä vent est dirige vers cette ouverture. Ce sont les vibrations 
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de cette languettc qui 23 produiscnt le son. M. l'abbe Mical ä observe que la 
plus ou moins grande tension de la membrane au milieu de laquelle est le 
trou 24 infiue peu sur le son. Mais il n'en est pas de meme de la languette 
vibrante, une petite plaque de metal est place sur Celles de 25 ses extremites 
qui ticnt ä la circonfcrcncc de la boite, et peut parle moycn d'unc vcrgc etre 
plus ou moins avance sur cette 26 languette, vers le trou Ellyptique, qu'elle 
recouvre. Plus cette plaque de metal s'avance sur la languette qui devient 
alors 27 plus courte, plus le son qu'elle produit est aigu ; et au contraire il 
est d'autant plus grave, que la longcuur de la languette est plus 28 grande. 
C'est par ce moyen que que l'abbe Mical rend uniformes les difFerens sons de 
chaque boite qui sans cela seraient 29 dissonans. Cette circonstance nous a 
paru remarquable, parce qu'elle est la seule qui puisse, dans la machine dont 
nous 30 avons examine le mecanisme produire des tons [sons ?] difFerens ; tous 
les autres details qui nous exposerons n'a[...] etes destine 31 qu'a modifier le 
meme ton de maniere ä prononcer des sillabes mais sans changer l'inflixion 
de la voix. M. l'abbe Mical 32 a essaye determiner ses conduits ä vent, par 
une Ouvertüre plus ou moins etroite, qui produisait des sons du meme genre 
33 que ceux des flütes ou des jeux d'orges ä Bizeau. Mais ces tentatives ne lui 
ont point reussi. II n'a pu obtenir des sons 34 analogues a ceux de la voix hu- 
maine et susceptibles des modifications dont il a fait usage, que par le moyen 
d'une languette qui 35 ressemble evidemment ä la plaquette qui vibre dans 
le jeu ä Au[...] de l'orguc et dont le ton est change comme celui de la langue 
36 par une tension plus ou moins grande ; d'ou il resulte que si on trouve 
le moyen d 'avancer plus ou moins et dans des proportions 37 determinees la 
plaque de metal sur la languette, on pourrer changuer de ton et faire chanter 
la machine, il est au moins 38 probable qu'elle est susceptible dace dagre de 
perfection. Les boites dans lesquelles les sons se modifient et dont nous avons 
decrit 39 Diaphragme ou la cloison, sont construites de differente maniere. 
1''. Les unes sont formees de deux moities a peu pres egales tou.. 40 deux 
concaves, arrondies et ajoustees l'une sur l'autre de maniere ä s'ouvrir par 
le moyen d'une charniere et formant un angle 41 plus ou moins grand. 2*^. Les 
deux moities des autres boites sont disposees de fagon que la superieure peut 
s'enlever tout ä fait et ensuite 42 en contact avec l'inferieure dans laquelle est 
toujours le Diaphragme perce d'un trou et recouvert d'une languette. 43 3^. 
D'autres boites sont toutes d'une piece, alles ont la meme forme que les pre- 
cedentes qui sont ovoiides. Leur partie superieure est percee dans 44 quelques 
unes d'un seul trou rond, dans d'autres de plusieurs qui sont tous recouverts 
par des Soupapes. 4*^. II y a quelques Boites qui 45 different de celles-cy, en 
ce qu'etant d'une seule piece, elles sont beaucoup moins elevees. II semble 
que pour les former on ait tronque 46 les premieres ; elles sont percees d'un 
trou qu'une Soupape recouvre et le diaphragme dispose comme il a ete dit 
plusieurs fois, est tendu 47 le bas de especes de gadets. 5^. Une de ces boites 
reunit le mecanisme des autres c'est ä dire que la moitie superieure peut se 
mou[...] 48 dessus de l'inferieure en formernt un angle plus ou moins ouvert et 
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etant retenuc par unc charuiore tandis que la region la plus clcvcc de 49 cctte 
moitie est percee d'un trou qu'une Soupapc rccouvre. 6''. Enfin l'interieure 
de ces boites vü au-dessous du Diaphragme, n'est pas b[...] 50 dans chacune 
et les variations contribuent encore ä modifier le son. Cette premiere partie 
de la machinc composee de la chambre ä vent, 51 des conduits et des gadets 
on Boites sonores, etait la plus importante ä considerent Leur donner une 
idee de la seconde partie qui est 52 composee d'un cylindre et de leviers, 
il suffira de dire que les leviers [...] par le cylindre paraissent etre divises 
en trois ordres. Les uns 53 levent et baissent les Soupapes de la chambre ä 
vent ; les autres recouvent les moities superieures des boites sonores ou les 
Soupapes qui 54 recouvrent leurs ouvertures ; les troisiemes enfin repondent 
aux tetes et ne contribuent en rien aux sons. Nous [...], l'academie 55 a por- 
tee de jugcr de ces pieces en lui exposant leur [...] dans la prononciation de 
quelques lettres ou Syllabes. Nous avons se choisi celles que l'on entend de la 
maniere la plus distincte. 1^. La.. A se pronence dans une des grandes boites 
(1) [...] 57 de deux moities mobiles l'une sur l'autre pour que l'on entende 
cette lettre il faut que la boite restent immobile, sa moitie[? ...] sssuperieure 
etant demeurant ouverte a 40 degres ä peu pres. 

1 Le son de la lettra a dans la prononciation naturelle resulte d'une dispo- 
sition analogue, pendant que la ..ngue est 2 fixee dans le fonds de la bouche, 
son dos se relevant un peu, les deux machoires sont et demeurent ouvertes 
tant que l'on entend 3 le meme son. 2'^. La lettre o se modifie dans une boite 
de la meme grandeur et de la meme forme que la lettre a, avec cette 4 dif- 
ference que la moitie superieure n'est point mobile, mais seulement percee 
d'une Ouvertüre ronde (2). en effet lorsqu'on 5 prononce la lettre a, si on 
retrecit l'ouverture de la bouche, sans changer la Situation de la langue le 
son o se fait e entendre au lieu du premier. 3'^. L'ouverture de la bouche 
lorsque l'on prononce la lettre e tient le milieu entre Celles requises par 7 la 
lettre a et pour la lettre o ; aussi le vase dans lequel (I) la lettre e se fait 
entendre, at-il une Ouvertüre plus grande que 8 celui de la'article prccedent 
et plus petite que celui de la lettre a dont-il differe encore en ce qu'il n'y a 
point de partie superieure 9 detailee et mobile, et en ce qu'il est en total plus 
court que les deux premiers. La proportion de ces ouvertures est d'accord 
avec 10 Celles observees et determinees par M. Kratzenstein qui a remporte 
le prix de l'academie de Petersbourg en 1781. Sur un n sujet analogue (page 
15 de ce Memoire). 4^. II est facile de prononcer la avec la Boite destinee ä 
la voyelle a. II suffit pour 12 cela que l'air partoant parle conduit et soulevant 
la languette mobile un moment avant qu'aucun autre mouvement s'execut 
13 ce que M. l'abbe Mical appelle preparation ; la moitie superieure s'eleve 
(d) et passe un angle avec l'inferieure. L'angle 14 etant de 25 degres le son 
est distinct et il devient plus net encore ; si l'ouverture est plus grande ; pour 
prononcer la avec la 15 bouche, on ouvre de meme cette cavite et l'on ecarte 
les machoires. 5^. La Syllabe pe se forme dans un vase court qui n'a le qu'une 
Ouvertüre couverte d'une Soupape. (I). II faut aussi une preparation. L'air 
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est pousse vers la cavite du vase ; la n Soupape s'eleve prusquement (2) et 
le cours de l'air est interrompu dans le conduit ä vent. On fait absolument 
la meme chose avec is la bouche lorsque l'ouvert prononce cette Syllabe. 6*^ 
La Syllabe fai s'entend aussi tres bien. M. l'abbe Mical ä employe un moyen 
19 particulier pour sa formation. II se sert d'une boite divisee en deux moi- 
ties articulees par une charniere (3) mais l'extremite du levier tres 20 mince 
souleve la languette vibrante. L'air passe et produit un sifflement ; alors la 
languette cessant d'etre souleve retombe et vibre. La 21 partie superieure du 
vase s'ouvre et l'on entend fa, fe ou fai. Suivant les degres d'ouverture. sans 
le sifflement produit par le mecanisme 22 dont nous avons parle, on aurait a 
ou e ou la ou le suivant que les deux parties du vase aurai entete ouvertes ou 
qu'elles se 23 ecartees dans le moment de la prononciation. En reflechissant 
sur la maniere dont on prononce pai, il est facile de se convaincre que 24 cette 
syllabe est en effet composee de ai et d'une sifflement. C'est ce que M. l'abbe 
Mical ä execute. 8*^. Oa se prononce en deux tems 25 dans un vase (i) dont les 
deux moities sont articulees, la moitie superieure etant de plus percee d'un 
trou rond, recouvert d'une soupape. 26 cette soupape se leve et on entend 
la lettre O ; alors la motie superieure du vase se leve. sur l'inferieure et on 
entend la lettre A. ces deux 27 neanmoins se suceedent avec rapidite ; l'oreille 
entend oa. la bouche dans cette prononciation fait apeupres la meme chose. 
9*^. Nous 28 terminerons en details en exposant comment M. l'abbe Mical fait 
prononcer la lettre R par la machine que nous avons examines 29 au dessus de 
la chambre ä vent est une cavite prticuliere ou une languette plus forte que 
Celle des Boites sonores est mise en resonance[ ?] 30 par une Colonne d'air. 
Elle vibre et produit des fremissemens ou battemens qui expriment le son 
de la lettre R et suivant que teile 31 et teile Boite sonore joue en meme tems 
on en obtient le son RA, RO ye la langue produit dans la bouche le meme 
effet que le 32 mecanisme emploie par M. l'abbe Mical. Nous en avons dit 
assez pour faire voier qu'il a toujours cherche ä imiter la nature et 33 c'est 
sans ce rapport que son travail nous a paru si interessant. La chambre ä 
vent fait l'offlce des poumons ; le conduit a 34 veut fait celui de la trachee 
artere ; le trou de la cloison repond ä la glotte, la cloison et la [...]me vibrante 
aux levres de la glotte 35 et aux ligamens du Larianx ; la cavite de la boite 
sonore doit etre comparee aux fosses nazales, 36 palatines et Buccales et les 
differentes ouvertures de la Boite ä Celles de la bouche elle-meme, comme 
nous l'avons 37 en parlant de chaque son en particulier. Nous pensons que 
l'academie doit applaudier aux efforts de M. l'abbe M. que 38 sa machine est 
ingenieuse, que ses travaux meritent d'etre encourages et que son essai quoi 
qu'imparfait encor 39 est tres digne de l'approbation de l'Academie. 
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17 2^- Transformation 

In diesem Abschnitt wird die ^-Transformation vorgestellt, die verwen- 
deten Eigenschaften gezeigt und kurz erörtert. Abschließend wird ihre An- 
wendung auf lineare Differenzengleichungen mit konstanten Koeffizienten 
skizziert, die häufigen zeitdiskreten Svstemenl^ entsprechen. 

DieZ-TVansformationE^ist eine lineare Abbildung einer reell- oder kom- 
plexwertigen Folge@ x auf eine Funktion über der komplexen Ebene. Eine 
übliche Definition |Vi64] ist 

oo 

X = Z{x} ^ X(z) = ^ rcfcZ-'^ , zGC, 

fc=0 

wobei die Bildfunktion durch eine Majuskel gekennzeichnet wird. Die Z- 
Transformation enthält die zeitdiskrete Fouriertransformation der Folge, 
X(a;) = Y^^=üXk^~^^^ ^ w G M, als Spezialfall: Die Reihe ergibt sich für 
z = e*'^, also als Funktionswerte von X(2:) auf dem Rand des Einheitskreises 
der komplexen Bildebene. Mit der ^-Transformation lässt sich eine größere 
Menge von Folgen betrachten. Damit die Fouriertransformation auf einem 
Gebiet konvergiert, muss die Folge x den Grenzwert null haben. Die Z- 
Transformation konvergiert bereits, wenn x durch eine Exponentialfolge af' 
majorisiert wird — die Konvergenz erfolgt im Gebiet \z\ > a. 

Beiden Transformationen gemein ist der Faltungssatz. Wird eine Folge 
Uk durch die Faltung der Folgen Wk und Xk bestimmt, so ergibt sich die 
^-Transformierte aus dem Produkt im Bildbereich: 

Y{z) = W{z)X{z) . 

Eine in dieser Arbeit nützliche Eigenschaft ist der Verschiebungssatz. 
Eine Folge yk = x^+n die um n Glieder gegenüber der Folge x verschoben 
ist, hat die Bildfunktion 

oo oo oo 

Y(z) = Vkz-^ = J2 ^k+nz-' = E x,z-^+" = z"X(z) , 

fc=0 fc=0 fc=0 

38. Unter einem zeitdiskreten System wird hier ein Tupel aus dem Zustand s G K" 
mit dem Anfangswert i £ K", dem Eingangswert x £ K"", dem Ausgangswert y £ K', der 
Abbildung A £ K""*"™— >-K"+' verstanden, wobei initial s — i und die folgenden Zeitschritte 
mittels (s,3/) = A{s,x) gebildet werden; n,m,l £ N. 

39. Die ^-Transformation wurde 1952 zur Analyse abtastender Systeme als eine Spezia- 
lisierung der Laplace- Transformation £{■} vorgestellt, R(z) — 'C.{r{t)'^°°__ S{t — nT)} 
mit dem Zeitsignal r{t), vgl. [RaZ52) . Die Autoren weisen daraufhin, dass bereits in [Hu47| 
die gleiche Transformation, wenngleich namenlos und über erzeugende Funktionen herge- 
leitet, zur Stabilitätsanalyse zeitdiskreter Systeme gezeigt ist; sie irren aber darin, die Ein- 
führung dieser Analyse von Differenzengleichungen Laplace zuzuschreiben, vgl. [Mol730] . 

40. Die Beschränkung auf Folgen N — 5> R ist zulässig, da die in dieser Arbeit durchge- 
führten physikalischen Betrachtungen einen Anfang haben und kausal sind. Eine weitere 
Beschränkung auf endliche Folgen, wie sie sich durch definitionsgemäß endliche Messung 
begründen liese, würde jedoch einige Aspekte verbergen. 
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vereinfacht unter der Annahme, dass nicht in beiden Folgen enthaltene Glie- 
der gleich null sind. Eine Verschiebung der Folge entspricht also im Bildbe- 
reich der Multiplikation mit einer entsprechenden Potenz von z.F^ 

Damit können lineare DifFerenzengleichungen mit konstanten Koeffizien- 
ten Oj untersucht werden. Diese Gleichungen lassen sich in der Förmig 

N 

auVk-n = Wk 

n=0 

darstellen. Die Folge y gibt die Entwicklung der Differenzengleichung wieder, 
und die Folge w bestimmt, ob es sich aufgrund tt;^ = V A; G N um eine 
homogene oder andernfalls inhomogene Differenzengleichung handelt. Durch 
die 2^- Transformation gewinnt man 



N 

E 

n=0 



-"Y = W 



Einsichten über die Eigenschaften der Differenzengleichung gewinnt man 
anhand der Eigenwerte Aj, die Nullstellen des charakteristischen Polynoms 
J2n=o 0'nZ^~^ sind, und den dazugehörigen Eigenfolgen .Eloie Eigenwer- 
te lassen sich in Polarkoordinaten re~^^ darstellen; hierbei ist u die Eigen- 
oder Resonanzfrequenz und r = |A| ein Maß der Resonanzgüte und der Sta- 
bilität. Für komplexwertige Eigenwerte ergeben sich reelle Eigenfolgen aus 
der Überlagerung mit dem konjugierten Eigenwert y^ = (re*")'^ib(re~*'^)'^ = 
2r^ sm.{ujk) und 2r'^ cos(a;A;). Ist r > 1 nimmt die Amplitude der Schwingung 
exponentiell zu, das System ist instabil. Für r = 1 erhält man eine unge- 
dämpfte, für r < 1 eine gedämpfte Schwingung. 



41. Der Verschiebungsatz ist nicht auf n £ N beschränkt: eine Erweiterung auf Q ergibt 
sich über ein kürzeres AbtastintervaU gefolgt von einer ganzzahUgen Unterabtastung. 

42. Der Name „Differenzengleichung" stammt von der Darstellung mittels Differenzen- 
operators Ai/ = Vk+i — Vk und dessen Potenzen in Form wiederholter Anwendung, die zu 
der hier gezeigten Form äquivalent ist, vgl. englische Ausgabe von |Vi64| . 

43. Der Zusammenhang wird durch Darstellung der homogenen Differenzengleichung 
A^-ter Ordnung (mit ao = 1) als System von Differenzengleichungen 1. Ordnung offen- 
sichtlich: 





/ Vk 






/-ai 


-~a2 ■ ■ 


— ajv_i 


— ajv\ 




Vk-i 




1 











Vk ^ AVk-i mit yk = 


yk-2 









1 










\yk-N+ 


J 




l 





1 


/ 



Dieses System führt mit dem Ansatz ~ \yk 
>^yk- 



\ e 



zu der Eigenwertgleichung 
Ayk-i- Die Lösungen der Eigenwertgleichung, die Eigenwerte Ai, ergeben sich 

aus der charakteristischen Funktion det(^— A,;_E) — X^^_q an\^~" ~ 0. Die dazugehörigen 
Eigenfolgen haben aufgrund des Ansatzes die Gestalt y^ ~ A*. Ausgenommen hiervon 
sind Nullstellen der charakteristischen Funktion im Ursprung; um diese Spektralwerte zu 
erfassen, muss der Eigenwertbegriff erweitert werden. 
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Für die Betrachtung inhomogener Differenzengleichungen in Form von li- 
nearen zeitinvarianten zeitdiskreten Systemen wird die Differenzengleichung 
häufig dahingehend umformuliert, dass auch die Folge w durch eine Diffe- 
renzengleichung aus einer Eingangsfolge x gebildet wird. Die Differenzen- 
gleichung und deren .E-Transformation haben dann die Form 

NM N M 

n=0 m=0 n=0 m=0 

wobei die Koeffizienten bm der Eingangsfolge zugeordnet sind. Die Ubertra- 
gungseigenschaften H dieses Systems lassen sich anhand des Verhältnisses 
der Bildfunktionen von Ausgangs- zur Eingangsfolge bestimmen: 

Wz) = ^^^-^ = ^m=0 ^ 
X(Z) " En=0 ^nZ-- 

Insbesondere ist die Impulsantwort - wenn also zur Anregung als Eingangs- 
folge die Einheitsimpulsfolge {1, 0, 0, ...} verwendet wird, deren Bildfunktion 
X(^;) = 1 ist - des Systems gleich der Übertragungsfunktion. 

Damit ist die Analyse dieser Systeme auf die Analyse einer rationalen 
Funktion zurückgeführt. Diese rationale Funktion lässt sich, abgesehen von 
einem Faktor, durch Produkte ihrer Pole und Nullstellen darstellen. Dies 
sind die Nullstellen des Nenner- und des Zählerpolynoms, erstere folglich 
die bereits diskutierten Eigenwerte. Die Faktoren des Zählerpolynoms, (1 — 
niZ~^), sind im Zeitbercich gewichtete gleitende Mittlungen, — riiU^^i, 
die Signale oder Signalkomponenten des Typs yk = auslöschen. 
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